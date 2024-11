O grande modelo de linguagem (LLM) de inteligência artificial (IA) português vai chamar-se Amália e a sua versão final será lançada em 2026, avança, em entrevista à Lusa, o presidente executivo (CEO) do Centro para a AI Responsável.

Em 11 de Novembro, na noite de abertura da Web Summit, o primeiro-ministro anunciou o lançamento, no primeiro trimestre do próximo ano, de um LLM (Large Language Model) em português. O projecto envolve o Centro para a AI Responsável, da qual Paulo Dimas é CEO, e os centros de investigação, a Nova FCT e o Instituto Superior Técnico.

A primeira versão "não será uma versão perfeita", mas antes "beta, inicial, para começar a ter feedback e, ao longo do tempo, vai sendo melhorada", diz Paulo Dimas, adiantando que se trata de "um projecto a 19 meses". A versão final "será lançada só em 2026", acrescenta. Os três pontos fundamentais deste projecto são a variante linguística — português de Portugal —, a representatividade cultural e a protecção de dados, aponta.

Paulo Dimas salienta que, tal como Luís Montenegro afirmou, vai estar pronto "no primeiro trimestre" de 2025. "Vamos estar a trabalhar em cima de trabalho já desenvolvido por estes centros de investigação: portanto, há trabalho de vários anos nesta área, tanto na área dos dados para a língua portuguesa, trabalho feito pelo centro de investigação da Nova Faculdade de Ciências e Tecnologia (FCT), há trabalho feito também no âmbito do Técnico" e "também há trabalho que vai ser transferido do lado da Unbabel, por toda a experiência" que a tecnológica "tem a criar modelos multilíngue e modelos que estão sendo, neste momento, treinados em supercomputadores", diz.

Em suma, "a equipa que vai estar a trabalhar na criação deste LLM é uma equipa que já tem muitos anos de experiência nesta área", sublinha Paulo Dimas. Em cima deste trabalho "é possível entregar este LLM no primeiro trimestre" e "a isso junta-se uma colaboração muito estreita com a Fundação para a Ciência e Tecnologia, que criou condições a nível de computação", essencial para este tipo de modelos de grande escala.

"E a Fundação para a Ciência e Tecnologia tem vindo a investir em capacidade computacional que vai ser usada aqui", já que "na prática vamos utilizar (...) um computador que está em Barcelona, mas que parte dele é português", prossegue. Ou seja, "temos um computador português que fisicamente está em Barcelona, mas uma percentagem é do Estado português", sintetiza. Agora, se "estivéssemos a treinar isto, por exemplo, numa cloud da Microsoft, da Google, da Amazon, isto ia ter um custo altíssimo, mas como vamos estar a usar este recurso nacional, vai ser feito de uma forma muito mais eficiente do ponto de vista financeiro", explica.

Questionado o que é que o LLM português representa para si, Paulo Dimas classifica de "peça-chave no ecossistema nacional de inteligência artificial". Isto porque "em cima deste LLM vai ser possível criar novas aplicações de inteligência artificial onde a língua portuguesa está preservada, onde nós temos controlo sobre a língua portuguesa", destaca.

Paulo Dimas, que também é vice-presidente de inovação da Unbabel, dá o exemplo de um produto que considera um dos "mais emocionais" que já desenvolveu na sua vida profissional, o Halo. Desenvolvido pela equipa da Unbabel, este projecto permite "recuperar a capacidade de comunicação de doentes que sofrem de Esclerose Lateral Amiotrófica [ELA]", já que estes perdem a capacidade de escrever e falar porque têm uma incapacidade muscular geral.

"A única forma de voltarem a comunicar com as pessoas de quem gostam mais, com a família, com os cuidadores, é através de tecnologia de comunicação alternativa e aumentativa. Nós, com a inteligência artificial, conseguimos clonar a voz de pacientes" e "já estamos a trabalhar com pacientes de ELA que voltaram a falar", relata. Contudo, "essa fala resulta de texto que muitas vezes é produzido na variante falada no Brasil", o que "não é nada natural". Mas, a partir do momento em que "tivermos o Amália, que vai ser o nome que vai ser dado ao LLM, um nome inspirado numa figura muito importante na nossa história, vamos poder controlar aquilo que é dito nestas conversas".

Desta forma, os doentes vão poder falar em português falado em Portugal e isso "é uma peça fundamental", mas mais do que isso, "é uma peça transversal à Administração Pública", diz. Porque "podemos, por exemplo, trabalhar em cima deste modelo na área da educação e fazer com que as nossas crianças aprendam nas escolas com um tutor personalizado que sabe o currículo educativo nacional". Em suma, o uso do LLM Amália "é completamente transversal".

Por outro lado, "dá autonomia tecnológica, permite-nos que possamos ir melhorando o modelo ao longo do tempo, nomeadamente ao nível da introdução do sistema multimodalidade, que é acrescentar também imagem, acrescentar depois no futuro também, eventualmente, fala", acrescenta. Trata-se de "um recurso tecnológico nacional que é transversal a todas as áreas da nossa sociedade, da investigação e das startups", sublinha.

E também "vai ser uma peça importante para as startups. Ela, no princípio, não vai falar", mas "temos uma Amália a escrever português correcto, português falado em Portugal e uma base para a tal representatividade cultural" e, "definitivamente, conhecer mais sobre a cultura portuguesa". Também na Administração Pública o LLM Amália vai ter uma "peça muito importante", da educação à inovação e para o "desenvolvimento da inteligência artificial em Portugal".

Um parceiro "muito importante" nesta iniciativa "vai ser a Agência para a Modernização Administrativa, a AMA", porque vai ser a forma de "transpor este LLM, esta tecnologia, para a Administração Pública". No fundo, "é um exemplo de uma parceria que junta centros de investigação e junta a Administração Pública" e que "também parte do know-how desenvolvido em startups nacionais como a Unbable", com o Centro para a IA responsável como dinamizador destas colaborações, remata.