Versão final vai ser lançada em 2026. Variante linguística, representatividade cultural e proteção de dados, num projeto a 19 meses.
O grande modelo de linguagem (LLM) de inteligência artificial (IA) português vai chamar-se Amália e a sua versão final será lançada em 2026, avança, em entrevista à Lusa, o presidente executivo (CEO) do Centro para a AI Responsável.
Em 11 de novembro, na noite de abertura da Web Summit, o primeiro-ministro anunciou o lançamento, no primeiro trimestre do próximo ano, de um LLM (‘Large Language Model’) em português.
O projeto envolve o Centro para a AI Responsável, da qual Paulo Dimas é CEO, e os centros de investigação, a Nova FCT e o Instituto Superior Técnico.
A primeira versão “não será uma versão perfeita”, mas antes “beta, inicial, para começar a ter ‘feedback’ e, ao longo do tempo, vai sendo melhorada”, diz Paulo Dimas, adiantando que se trata de “um projeto a 19 meses“.
A versão final “será lançada só em 2026”, acrescenta.
Os três pontos fundamentais deste projeto são a variante linguística – português de Portugal -, a representatividade cultural e a proteção de dados, aponta.
Paulo Dimas salienta que, tal como Luís Montenegro afirmou, vai estar pronto “no primeiro trimestre” de 2025.
“Vamos estar a trabalhar em cima de trabalho já desenvolvido por estes centros de investigação: portanto, há trabalho de vários anos nesta área, tanto na área dos dados para a língua portuguesa, trabalho feito pelo centro de investigação da Nova Faculdade de Ciências e Tecnologia (FCT), há trabalho feito também no âmbito do Técnico” e “também há trabalho que vai ser transferido do lado da Unbabel, por toda a experiência” que a tecnológica “tem a criar modelos multilíngue e modelos que estão sendo, neste momento, treinados em supercomputadores”, diz.
Em suma, “a equipa que vai estar a trabalhar na criação deste LLM é uma equipa que já tem muitos anos de experiência nesta área”, sublinha Paulo Dimas.
Em cima deste trabalho “é possível entregar este LLM no primeiro trimestre” e “a isso junta-se uma colaboração muito estreita com a Fundação para a Ciência e Tecnologia, que criou condições a nível de computação”, essencial para este tipo de modelos de grande escala.
“E a Fundação para a Ciência e Tecnologia tem vindo a investir em capacidade computacional que vai ser usada aqui”, já que “na prática vamos utilizar (…) um computador que está em Barcelona, mas que parte dele é português“, prossegue.
Ou seja, “temos um computador português que fisicamente está em Barcelona, mas uma percentagem é do Estado português“, sintetiza.
Agora, se “estivéssemos a treinar isto, por exemplo, numa ‘cloud’ da Microsoft, da Google, da Amazon, isto ia ter um custo altíssimo, mas como vamos estar a usar este recurso nacional, vai ser feito de uma forma muito mais eficiente do ponto de vista financeiro”, explica.
Questionado o que é que o LLM português representa para si, Paulo Dimas classifica de “peça-chave no ecossistema nacional de inteligência artificial“.
Isto porque “em cima deste LLM vai ser possível criar novas aplicações de inteligência artificial onde a língua portuguesa está preservada, onde nós temos controlo sobre a língua portuguesa”, destaca.
Paulo Dimas, que também é vice-presidente de inovação da Unbabel, dá o exemplo de um produto que considera um dos “mais emocionais” que já desenvolveu na sua vida profissional, o Halo.
Desenvolvido pela equipa da Unbabel, este projeto permite “recuperar a capacidade de comunicação de doentes que sofrem de Esclerose Lateral Amiotrófica [ELA]”, já que estes perdem a capacidade de escrever e falar porque têm uma incapacidade muscular geral.
“A única forma de voltarem a comunicar com as pessoas de quem gostam mais, com a família, com os cuidadores, é através de tecnologia de comunicação alternativa e aumentativa. Nós, com a inteligência artificial, conseguimos clonar a voz de pacientes” e “já estamos a trabalhar com pacientes de ELA que voltaram a falar”, relata.
Contudo, “essa fala resulta de texto que muitas vezes é produzido na variante falada no Brasil”, o que “não é nada natural“.
Mas, a partir do momento em que “tivermos o Amália, que vai ser o nome que vai ser dado ao LLM, um nome inspirado numa figura muito importante na nossa história, vamos poder controlar aquilo que é dito nestas conversas”.
Desta forma, os doentes vão poder falar em português falado em Portugal e isso “é uma peça fundamental”, mas mais do que isso, “é uma peça transversal à Administração Pública“, diz.
Porque “podemos, por exemplo, trabalhar em cima deste modelo na área da educação e fazer com que as nossas crianças aprendam nas escolas com um tutor personalizado que sabe o currículo educativo nacional”. Em suma, o uso do LLM Amália “é completamente transversal”.
Por outro lado, “dá autonomia tecnológica, permite-nos que possamos ir melhorando o modelo ao longo do tempo, nomeadamente ao nível da introdução do sistema multimodalidade, que é acrescentar também imagem, acrescentar depois no futuro também, eventualmente, fala”, acrescenta.
Trata-se de “um recurso tecnológico nacional que é transversal a todas as áreas da nossa sociedade, da investigação e das ‘startups'”, sublinha.
E também “vai ser uma peça importante para as ‘startups’. Ela, no princípio, não vai falar”, mas “temos uma Amália a escrever português correto, português falado em Portugal e uma base para a tal representatividade cultural” e, “definitivamente, conhecer mais sobre a cultura portuguesa”.
Também na Administração Pública o LLM Amália vai ter uma “peça muito importante”, da educação à inovação e para o “desenvolvimento da inteligência artificial em Portugal”.
Um parceiro “muito importante” nesta iniciativa “vai ser a Agência para a Modernização Administrativa, a AMA”, porque vai ser a forma de “transpor este LLM, esta tecnologia, para a Administração Pública”.
No fundo, “é um exemplo de uma parceria que junta centros de investigação e junta a Administração Pública” e que “também parte do ‘know-how’ desenvolvido em ‘startups’ nacionais como a Unbable”, com o Centro para a IA responsável como dinamizador destas colaborações, remata.
Custo
Não foi avançado qualquer valor relacionado com o investimento para esta inovação, mas Arlindo Oliveira tem uma estimativa.
O presidente do Conselho de Diretores e da Comissão Executiva do INESC TEC – Instituto de Engenharia de Sistemas e Computadores, Tecnologia e Ciência, prevê uma despesa entre 10 e 20 milhões de euros. “Parece-me ser um valor não muito disparatado”.
Em entrevista à rádio Renascença, o antigo presidente do Instituto Superior Técnico também acredita que um LMM em português será útil em diversos aspetos: “Serviço ao cliente, novos produtos de empresas, apoio a estudantes, aplicações na área da medicina ou jurídica, entre outras”.
Mas avisa que a implementação desta novidade não será fácil – até porque há poucos textos em português.
ZAP // Lusa
A primeira AI perfeitamente inútil da história, Portugal sempre na vanguarda