Inteligência artificial

Google suspende ferramenta do Gemini que gera imagens através de inteligência artificial

Ferramenta que permite gerar imagens de pessoas a partir de texto no novo modelo de inteligência artificial (IA) da Google, o Gemini, estava a gerar representações históricas imprecisas.

PÚBLICO

22 de Fevereiro de 2024, 17:30

Google suspende ferramenta do Gemini que gera imagens através de inteligência artificial Reuters/DADO RUVIC

Ouça este artigo

00:00

02:05

Gostaria de ouvir? Assine já

A Google suspendeu a utilização da ferramenta que permite gerar imagens de pessoas a partir de texto no seu novo modelo de inteligência artificial (IA) Gemini devido a problemas em algumas representações históricas.

Numa pequena nota publicada no X (antigo Twitter), a Google refere que já está a trabalhar para resolver os problemas recentes da ferramenta.

"Enquanto o fazemos, colocaremos em pausa a geração de imagens de pessoas e relançaremos uma versão melhorada em breve". Esta quarta-feira, a tecnológica já tinha admitido que o Gemini estava a apresentar algumas "imprecisões em representações históricas", sem se referir a imagens específicas, pedindo também desculpa pelas tentativas de criar uma “ampla gama” de resultados que "erraram o alvo".

Em causa está a geração de imagens de soldados negros e asiáticos quando é pedido à ferramenta que produza imagens de "soldados alemães da segunda guerra mundial", por exemplo, ou de pessoas de cor quando o prompt está relacionado com os “Pais Fundadores” dos EUA. Nos últimos dias, vários utilizadores têm utilizado as redes sociais para sinalizar que a ferramenta produz imagens imprecisas.

A geração de imagens pelo Gemini é uma ferramenta recente, introduzida no início de Fevereiro. O recurso já está disponível em modelos rivais, como o GPT-4 da OpenAI (que também oferece resultados imprecisos).

O novo modelo de inteligência artificial (IA) da Google, o Gemini, também tem poucos meses. Chegou no início de Dezembro a vários dos produtos e serviços da empresa, incluindo o chatbot Bard. Foi construído para ser multimodal, ou seja, capaz de compreender e combinar diferentes tipos de informações incluindo texto, imagens, áudio, vídeo e código informático. Isto faz com que seja mais fácil usar o modelo para identificar erros e corrigir equações, passo a passo, a partir de uma fotografia.

O sistema veio competir com outros já existentes como o GPT-4, o modelo da OpenAI por detrás da versão paga do ChatGPT. A OpenAI foi a primeira empresa a mostrar que era possível criar programas informáticos capazes de compreender humanos em contexto de conversa.

Comentários

Últimas publicações

Tópicos disponíveis

Escolha um dos seguintes tópicos para criar um grupo no Fórum Público.

Ao criar um novo grupo de discussão, tornar-se-à administrador e será responsável pela moderação desse grupo. Os jornalistas do PÚBLICO poderão sempre intervir.

Saiba mais sobre o Fórum Público.