ZAP // Dall-E-2

Versão final vai ser lançada em 2026. Variante linguística, representatividade cultural e proteção de dados, num projeto a 19 meses.
O grande modelo de linguagem (LLM) de inteligência artificial (IA) português vai chamar-se Amália e a sua versão final será lançada em 2026, avança, em entrevista à Lusa, o presidente executivo (CEO) do Centro para a AI Responsável.
Em 11 de novembro, na noite de abertura da Web Summit, o primeiro-ministro anunciou o lançamento, no primeiro trimestre do próximo ano, de um LLM (‘Large Language Model’) em português.
O projeto envolve o Centro para a AI Responsável, da qual Paulo Dimas é CEO, e os centros de investigação, a Nova FCT e o Instituto Superior Técnico.
A primeira versão “não será uma versão perfeita”, mas antes “beta, inicial, para começar a ter ‘feedback’ e, ao longo do tempo, vai sendo melhorada”, diz Paulo Dimas, adiantando que se trata de “um projeto a 19 meses“.
A versão final “será lançada só em 2026”, acrescenta.
Os três pontos fundamentais deste projeto são a variante linguística – português de Portugal -, a representatividade cultural e a proteção de dados, aponta.
Paulo Dimas salienta que, tal como Luís Montenegro afirmou, vai estar pronto “no primeiro trimestre” de 2025.
“Vamos estar a trabalhar em cima de trabalho já desenvolvido por estes centros de investigação: portanto, há trabalho de vários anos nesta área, tanto na área dos dados para a língua portuguesa, trabalho feito pelo centro de investigação da Nova Faculdade de Ciências e Tecnologia (FCT), há trabalho feito também no âmbito do Técnico” e “também há trabalho que vai ser transferido do lado da Unbabel, por toda a experiência” que a tecnológica “tem a criar modelos multilíngue e modelos que estão sendo, neste momento, treinados em supercomputadores”, diz.
Em suma, “a equipa que vai estar a trabalhar na criação deste LLM é uma equipa que já tem muitos anos de experiência nesta área”, sublinha Paulo Dimas.
Em cima deste trabalho “é possível entregar este LLM no primeiro trimestre” e “a isso junta-se uma colaboração muito estreita com a Fundação para a Ciência e Tecnologia, que criou condições a nível de computação”, essencial para este tipo de modelos de grande escala.
“E a Fundação para a Ciência e Tecnologia tem vindo a investir em capacidade computacional que vai ser usada aqui”, já que “na prática vamos utilizar (…) um computador que está em Barcelona, mas que parte dele é português“, prossegue.
Ou seja, “temos um computador português que fisicamente está em Barcelona, mas uma percentagem é do Estado português“, sintetiza.
Agora, se “estivéssemos a treinar isto, por exemplo, numa ‘cloud’ da Microsoft, da Google, da Amazon, isto ia ter um custo altíssimo, mas como vamos estar a usar este recurso nacional, vai ser feito de uma forma muito mais eficiente do ponto de vista financeiro”, explica.
Questionado o que é que o LLM português representa para si, Paulo Dimas classifica de “peça-chave no ecossistema nacional de inteligência artificial“.
Isto porque “em cima deste LLM vai ser possível criar novas aplicações de inteligência artificial onde a língua portuguesa está preservada, onde nós temos controlo sobre a língua portuguesa”, destaca.
Paulo Dimas, que também é vice-presidente de inovação da Unbabel, dá o exemplo de um produto que considera um dos “mais emocionais” que já desenvolveu na sua vida profissional, o Halo.
Desenvolvido pela equipa da Unbabel, este projeto permite “recuperar a capacidade de comunicação de doentes que sofrem de Esclerose Lateral Amiotrófica [ELA]”, já que estes perdem a capacidade de escrever e falar porque têm uma incapacidade muscular geral.
“A única forma de voltarem a comunicar com as pessoas de quem gostam mais, com a família, com os cuidadores, é através de tecnologia de comunicação alternativa e aumentativa. Nós, com a inteligência artificial, conseguimos clonar a voz de pacientes” e “já estamos a trabalhar com pacientes de ELA que voltaram a falar”, relata.
Contudo, “essa fala resulta de texto que muitas vezes é produzido na variante falada no Brasil”, o que “não é nada natural“.
Mas, a partir do momento em que “tivermos o Amália, que vai ser o nome que vai ser dado ao LLM, um nome inspirado numa figura muito importante na nossa história, vamos poder controlar aquilo que é dito nestas conversas”.
Desta forma, os doentes vão poder falar em português falado em Portugal e isso “é uma peça fundamental”, mas mais do que isso, “é uma peça transversal à Administração Pública“, diz.
Porque “podemos, por exemplo, trabalhar em cima deste modelo na área da educação e fazer com que as nossas crianças aprendam nas escolas com um tutor personalizado que sabe o currículo educativo nacional”. Em suma, o uso do LLM Amália “é completamente transversal”.
Por outro lado, “dá autonomia tecnológica, permite-nos que possamos ir melhorando o modelo ao longo do tempo, nomeadamente ao nível da introdução do sistema multimodalidade, que é acrescentar também imagem, acrescentar depois no futuro também, eventualmente, fala”, acrescenta.
Trata-se de “um recurso tecnológico nacional que é transversal a todas as áreas da nossa sociedade, da investigação e das ‘startups'”, sublinha.
E também “vai ser uma peça importante para as ‘startups’. Ela, no princípio, não vai falar”, mas “temos uma Amália a escrever português correto, português falado em Portugal e uma base para a tal representatividade cultural” e, “definitivamente, conhecer mais sobre a cultura portuguesa”.
Também na Administração Pública o LLM Amália vai ter uma “peça muito importante”, da educação à inovação e para o “desenvolvimento da inteligência artificial em Portugal”.
Um parceiro “muito importante” nesta iniciativa “vai ser a Agência para a Modernização Administrativa, a AMA”, porque vai ser a forma de “transpor este LLM, esta tecnologia, para a Administração Pública”.
No fundo, “é um exemplo de uma parceria que junta centros de investigação e junta a Administração Pública” e que “também parte do ‘know-how’ desenvolvido em ‘startups’ nacionais como a Unbable”, com o Centro para a IA responsável como dinamizador destas colaborações, remata.
Custo
Não foi avançado qualquer valor relacionado com o investimento para esta inovação, mas Arlindo Oliveira tem uma estimativa. O presidente do INESC prevê uma despesa entre 10 e 20 milhões de euros. “Parece-me ser um valor não muito disparatado”.
Em entrevista à rádio Renascença, o antigo presidente do Instituto Superior Técnico também acredita que um LMM em português será útil em diversos aspetos: “Serviço ao cliente, novos produtos de empresas, apoio a estudantes, aplicações na área da medicina ou jurídica, entre outras”.
Mas avisa que a implementação desta novidade não será fácil – até porque há poucos textos em português.
ZAP // Lusa
A primeira AI perfeitamente inútil da história, Portugal sempre na vanguarda
Com um Datacenter (na altura apregoado como um dos melhores do mundo) da Altice na Covilhã, porque raio se vai usar um “computador” (se nem o nome correcto de “servidor” sabem mencionar, já se está a ver que vai ser dinheiro do Estado mal empregue) em Barcelona?!?!