Amália: modelo português de linguagem IA pode custar 20 milhões

ZAP // Dall-E-2

Versão final vai ser lançada em 2026. Variante linguística, representatividade cultural e proteção de dados, num projeto a 19 meses.

O grande modelo de linguagem (LLM) de inteligência artificial (IA) português vai chamar-se Amália e a sua versão final será lançada em 2026, avança, em entrevista à Lusa, o presidente executivo (CEO) do Centro para a AI Responsável.

Em 11 de novembro, na noite de abertura da Web Summit, o primeiro-ministro anunciou o lançamento, no primeiro trimestre do próximo ano, de um LLM (‘Large Language Model’) em português.

O projeto envolve o Centro para a AI Responsável, da qual Paulo Dimas é CEO, e os centros de investigação, a Nova FCT e o Instituto Superior Técnico.

A primeira versão “não será uma versão perfeita”, mas antes “beta, inicial, para começar a ter ‘feedback’ e, ao longo do tempo, vai sendo melhorada”, diz Paulo Dimas, adiantando que se trata de “um projeto a 19 meses“.

A versão final “será lançada só em 2026”, acrescenta.

Os três pontos fundamentais deste projeto são a variante linguística – português de Portugal -, a representatividade cultural e a proteção de dados, aponta.

Paulo Dimas salienta que, tal como Luís Montenegro afirmou, vai estar pronto “no primeiro trimestre” de 2025.

“Vamos estar a trabalhar em cima de trabalho já desenvolvido por estes centros de investigação: portanto, há trabalho de vários anos nesta área, tanto na área dos dados para a língua portuguesa, trabalho feito pelo centro de investigação da Nova Faculdade de Ciências e Tecnologia (FCT), há trabalho feito também no âmbito do Técnico” e “também há trabalho que vai ser transferido do lado da Unbabel, por toda a experiência” que a tecnológica “tem a criar modelos multilíngue e modelos que estão sendo, neste momento, treinados em supercomputadores”, diz.

Em suma, “a equipa que vai estar a trabalhar na criação deste LLM é uma equipa que já tem muitos anos de experiência nesta área”, sublinha Paulo Dimas.

Em cima deste trabalho “é possível entregar este LLM no primeiro trimestre” e “a isso junta-se uma colaboração muito estreita com a Fundação para a Ciência e Tecnologia, que criou condições a nível de computação”, essencial para este tipo de modelos de grande escala.

“E a Fundação para a Ciência e Tecnologia tem vindo a investir em capacidade computacional que vai ser usada aqui”, já que “na prática vamos utilizar (…) um computador que está em Barcelona, mas que parte dele é português“, prossegue.

Ou seja, “temos um computador português que fisicamente está em Barcelona, mas uma percentagem é do Estado português“, sintetiza.

Agora, se “estivéssemos a treinar isto, por exemplo, numa ‘cloud’ da Microsoft, da Google, da Amazon, isto ia ter um custo altíssimo, mas como vamos estar a usar este recurso nacional, vai ser feito de uma forma muito mais eficiente do ponto de vista financeiro”, explica.

Questionado o que é que o LLM português representa para si, Paulo Dimas classifica de “peça-chave no ecossistema nacional de inteligência artificial“.

Isto porque “em cima deste LLM vai ser possível criar novas aplicações de inteligência artificial onde a língua portuguesa está preservada, onde nós temos controlo sobre a língua portuguesa”, destaca.

Paulo Dimas, que também é vice-presidente de inovação da Unbabel, dá o exemplo de um produto que considera um dos “mais emocionais” que já desenvolveu na sua vida profissional, o Halo.

Desenvolvido pela equipa da Unbabel, este projeto permite “recuperar a capacidade de comunicação de doentes que sofrem de Esclerose Lateral Amiotrófica [ELA]”, já que estes perdem a capacidade de escrever e falar porque têm uma incapacidade muscular geral.

“A única forma de voltarem a comunicar com as pessoas de quem gostam mais, com a família, com os cuidadores, é através de tecnologia de comunicação alternativa e aumentativa. Nós, com a inteligência artificial, conseguimos clonar a voz de pacientes” e “já estamos a trabalhar com pacientes de ELA que voltaram a falar”, relata.

Contudo, “essa fala resulta de texto que muitas vezes é produzido na variante falada no Brasil”, o que “não é nada natural“.

Mas, a partir do momento em que “tivermos o Amália, que vai ser o nome que vai ser dado ao LLM, um nome inspirado numa figura muito importante na nossa história, vamos poder controlar aquilo que é dito nestas conversas”.

Desta forma, os doentes vão poder falar em português falado em Portugal e isso “é uma peça fundamental”, mas mais do que isso, “é uma peça transversal à Administração Pública“, diz.

Porque “podemos, por exemplo, trabalhar em cima deste modelo na área da educação e fazer com que as nossas crianças aprendam nas escolas com um tutor personalizado que sabe o currículo educativo nacional”. Em suma, o uso do LLM Amália “é completamente transversal”.

Por outro lado, “dá autonomia tecnológica, permite-nos que possamos ir melhorando o modelo ao longo do tempo, nomeadamente ao nível da introdução do sistema multimodalidade, que é acrescentar também imagem, acrescentar depois no futuro também, eventualmente, fala”, acrescenta.

Trata-se de “um recurso tecnológico nacional que é transversal a todas as áreas da nossa sociedade, da investigação e das ‘startups'”, sublinha.

E também “vai ser uma peça importante para as ‘startups’. Ela, no princípio, não vai falar”, mas “temos uma Amália a escrever português correto, português falado em Portugal e uma base para a tal representatividade cultural” e, “definitivamente, conhecer mais sobre a cultura portuguesa”.

Também na Administração Pública o LLM Amália vai ter uma “peça muito importante”, da educação à inovação e para o “desenvolvimento da inteligência artificial em Portugal”.

Um parceiro “muito importante” nesta iniciativa “vai ser a Agência para a Modernização Administrativa, a AMA”, porque vai ser a forma de “transpor este LLM, esta tecnologia, para a Administração Pública”.

No fundo, “é um exemplo de uma parceria que junta centros de investigação e junta a Administração Pública” e que “também parte do ‘know-how’ desenvolvido em ‘startups’ nacionais como a Unbable”, com o Centro para a IA responsável como dinamizador destas colaborações, remata.

Custo

Não foi avançado qualquer valor relacionado com o investimento para esta inovação, mas Arlindo Oliveira tem uma estimativa. O presidente do INESC prevê uma despesa entre 10 e 20 milhões de euros. “Parece-me ser um valor não muito disparatado”.

Em entrevista à rádio Renascença, o antigo presidente do Instituto Superior Técnico também acredita que um LMM em português será útil em diversos aspetos: “Serviço ao cliente, novos produtos de empresas, apoio a estudantes, aplicações na área da medicina ou jurídica, entre outras”.

Mas avisa que a implementação desta novidade não será fácil – até porque há poucos textos em português.

ZAP // Lusa

Subscreva aqui a newsletter ZAP

Siga-nos no WhatsApp

Siga-nos no Google News

2 Comments

Paulo diz:

19 Novembro, 2024 às 13:53

A primeira AI perfeitamente inútil da história, Portugal sempre na vanguarda

Responder
Mike diz:

19 Novembro, 2024 às 16:31

Com um Datacenter (na altura apregoado como um dos melhores do mundo) da Altice na Covilhã, porque raio se vai usar um “computador” (se nem o nome correcto de “servidor” sabem mencionar, já se está a ver que vai ser dinheiro do Estado mal empregue) em Barcelona?!?!

Responder