OpenAI melhora ChatGPT com novo modelo de inteligência artificial. O que há de diferente no GPT-4?

A OpenAI lançou um novo modelo linguístico que é capaz de compreender e comentar imagens. O PÚBLICO explica as diferenças do GPT-4 face ao GPT-3.5.

Foto
O GPT-4 foi programado para escrever código para sites a partir de imagens CAROL YEPES/Getty

O laboratório por detrás do ChatGPT anunciou esta terça-feira o lançamento de um novo modelo de inteligência artificial, o GPT-4, que pode ser usado em sistemas de criação de conteúdo como chatbots, tradutores, assistentes digitais e sistemas de sumarização de conteúdo. A OpenAI alerta que as diferenças face ao GPT-3.5 (lançado com a primeira versão do ChatGPT) são "subtis", mas o novo sistema vem com capacidades adicionais, como a análise de imagens. Isto porque se trata de um sistema multimodal, capaz de interpretar e usar uma variedade maior de dados.

Por ora, a funcionalidade de análise de imagens está a ser testada pela Be My Eyes, uma app para ajudar pessoas cegas a ler rótulos e interpretar fotografias através de microvoluntariado. O GPT-4 também já está disponível para utilizadores da versão paga do ChatGPT (19 euros por mês), mas há um limite para o número de pessoas que podem testar o modelo ao mesmo tempo. O novo chatbot da Microsoft, que é uma das grandes investidoras da OpenAI, disponibiliza o GPT-4.0 gratuitamente, mas apenas para conteúdo escrito – e ainda há uma lista de espera para testar o novo Bing.

O PÚBLICO compilou o que se sabe sobre o novo modelo.

O que é o GPT-4?

O GPT-4 é uma versão melhorada do GPT-3.5, a tecnologia por detrás do ChatGPT. A base do chatbot da OpenAI são os GPT – sigla inglesa para Generative Pre-Trained Transformers. O "G" refere-se a sistemas de inteligência artificial que podem ser usados para gerar conteúdo novo, nomeadamente áudio, imagens, vídeo e texto. O "P" refere-se a “pré-treinado” porque o modelo aprende a partir de uma base de dados inicial (finita) antes de ser lançado. O "T" vem de transformers que são modelos linguísticos criados para encontrar padrões em sequências de dados e perceber qual é a melhor palavra para continuar uma frase.

A arquitectura por detrás dos transformers foi partilhada pela primeira vez por investigadores da Alphabet (a empresa-mãe da Google) num artigo académico publicado em 2017.

O que muda face ao GPT-3.5?

A maior diferença do GPT-4 é que se trata de um modelo multimodal capaz de interpretar texto e imagens. "[O sistema] aceita imagens e texto e emite texto", explica a equipa da OpenAI na apresentação. Ou seja, o GPT-4 não pode ser usado em sistemas que produzem imagens, mas pode ser usado para criar sistemas que falam sobre imagens. No futuro, um sistema multimodal também deve ser capaz de interpretar dados de áudio e vídeo.

O GPT-4 foi treinado para passar a uma variedade de exames académicos e provas, incluindo o exame à Ordem dos Advogados nos EUA. Além disto, o sistema inclui melhorias ao nível do "alinhamento", ou seja, da capacidade de perceber as intenções dos utilizadores humanos. A empresa também removeu algumas barreiras do modelo de linguagem GPT-3.5 que o impediam de opinar sobre saúde em alguns contextos.

"Numa conversa casual, a distinção entre GPT-3.5 e GPT-4 pode ser subtil", escreveu a equipa da OpenAI num texto de apresentação sobre o GPT-4. "A diferença surge quando a complexidade da tarefa atinge um limiar suficientemente [alto] – o GPT-4 é mais fiável, criativo e capaz de lidar com instruções com muito mais nuances do que o GPT-3.5".

De que serve o sistema de compreensão de imagens?

Existem várias finalidades. Numa demonstração transmitida pela OpenAI, a empresa mostra como o modelo GPT-4 pode ser usado por ferramentas que criam código para sites com base em rascunhos feitos à mão. A empresa também está a trabalhar com a startup Be My Eyes, para desenvolver voluntários virtuais que ajudam pessoas com problemas de visão a navegar o mundo. O jornal New York Times testou a tecnologia pedindo à versão do ChatGPT com GPT-4 para sugerir refeições com base numa imagem de um frigorífico aberto.

A tecnologia vem com riscos? A OpenAI pensou neles?

A OpenAI contratou mais de 50 peritos em várias áreas para analisar os riscos do GPT-4, incluindo profissionais de cibersegurança e segurança internacional. "O GPT-4 apresenta riscos semelhantes aos modelos anteriores, tais como gerar conselhos prejudiciais, código com erros, ou informação imprecisa", admite a equipa. As conclusões dos especialistas contratados foram usadas para definir áreas de alto risco e para "melhorar a capacidade do GPT-4" recusar pedidos – por exemplo, perguntas sobre como combinar e sintetizar produtos químicos perigosos.

Em Dezembro, semanas após o lançamento, o ChatGPT (que usa o GPT-3.5) foi alvo de controvérsia por partilhar sugestões sobre como desenvolver bombas com termite (composto explosivo) e roubar veículos.

Que dados foram usados para treinar o GPT-4?

Tal como o GPT-3.5 e antecessores, os algoritmos do GPT-4 aprendem sobre o mundo ao estudar enormes bases de dados que incluem textos da Wikipédia, clássicos da literatura e, por vezes, informação pública nas redes sociais. Parte do conteúdo foi licenciado pela OpenAI. "[Usamos] um conjunto de dados à escala da web, incluindo soluções correctas e incorrectas para problemas matemáticos, raciocínio fraco e forte, declarações contraditórias e consistentes, e [dados] de uma grande variedade de ideologias", explica a equipa da OpenAI na apresentação do GPT-4.

A OpenAI continua a recorrer a comentários de dezenas de revisores humanos contratados para identificar respostas erradas ou problemáticas (por exemplo, linguagem racista ou respostas consideradas perigosas).

A infraestrutura depende do Azure, o sistema de computação na nuvem da Microsoft que fornece acesso a centros de dados distribuídos em todo o mundo. Desde 2019, que a Microsoft e a OpenAI colaboram no desenvolvimento de novas tecnologias de supercomputação com inteligência artificial.

Quem pode usar o GPT-4?

O GPT-4 está disponível para utilizadores que subscrevam à versão paga do ChatGPT e para utilizadores do chatbot Bing, da Microsoft. O Bing não é pago, mas não inclui as capacidades de análise de imagem do GPT-4. Os programadores que queiram usar o modelo para desenvolver novos produtos, podem juntar-se a outra lista de espera para aceder à API (interface de programação de aplicações, na sigla inglesa) do GPT-4.

O preço difere consoante o tamanho das perguntas e das respostas do modelo (em respostas, cada 750 palavras custam cerca de meio cêntimo).

Sugerir correcção
Comentar