Teste "brutal" feito por matemáticos traça a perna a IA

O reinado dos matemáticos ainda não foi superado pela IA — assim o comprovam 150 perguntas feitas por campeões mundiais. IA “faz batota”, e mesmo assim só acerta 2% das perguntas. Mas não dá parte fraca.

Num artigo publicado no mês passado, um instituto de investigação tecnológica chamado Epoch AI reuniu 60 especialistas em matemática para avaliar a performance da IA com o teste de matemática mais exigente que conseguiram fazer.

A equipa da Epoch AI testou então seis modelos de linguagem de grande escala (LLMs) de topo, incluindo as versões mais recentes da OpenAI e da DeepMind, em cerca de 150 perguntas. Os modelos eram autorizados a inventar e executar sub-rotinas computacionais durante um minuto para ajudar a resolver os problemas, conta a Science.

As questões passavam por “problemas computacionalmente intensivos em teoria dos números e análise real, até questões abstratas em geometria algébrica e teoria das categorias. A resolução de um problema típico requer várias horas de esforço de um investigador no ramo relevante da matemática; e para as perguntas mais avançadas, requer vários dias”, escrevem os matemáticos no artigo.

E não se pode dizer que os cientistas eram desencorajadores. Enquanto esperavam pelas respostas, iam deixando mensagens como “continuem a trabalhar” e “não tenham medo de executar o vosso código”. Mas a IA falhou redondamente: acertou apenas 2% das respostas.

No entanto, os chatbots não deram parte fraca, e muitas vezes davam respostas erradas com confiança. Para além disso, os modelos “fazem batota”, diz o matemático Cheng Xu, já que são treinados em grandes áreas da Internet, e muitas vezes conseguem espreitar soluções para questões semelhantes – um problema conhecido como contaminação de dados.

“Na minha opinião, atualmente, a IA está muito longe de ser capaz de responder a essas perguntas… mas já me enganei antes”, diz Kevin Buzzar, matemático da Imperial College de Londres.

No entanto, não deixa de reconhecer potencial na tecnologia: “A mossa que a IA fez na comunidade matemática é pequena, mas as pessoas conseguem ver que há potencial”. Diz ainda que “se houver um sistema que consiga dominar essa base de dados, é o fim do jogo para os matemáticos“.

E tem motivos para estar preocupado. O modelo o1 da OpenAI, lançado em setembro, consegue agora pontuar acima dos 90% na maior parte dos testes de matemática de IA anteriores.

E, em julho, um modelo de IA centrado na matemática da Google DeepMind obteve uma medalha de prata em problemas da Olimpíada Internacional de Matemática, a principal competição mundial de matemática do ensino secundário.

Mas não foi o caso desta vez, em que os modelos de IA não chegaram aos calcanhares deste teste “brutal”, como o descrevem os matemáticos. “Continuo a ver a IA como uma ferramenta (…) que abre a nossa capacidade de fazer perguntas ainda mais difíceis”, diz Jeremy Avigad, matemático e filósofo da Universidade Carnegie Mello.

Maia Fraser, matemática da Universidade de Otava, diz que a possibilidade de a IA ultrapassar os humanos nesta matéria “na verdade, não está assim tão longe… o que significa que é agora que temos a oportunidade de intervir”.

ZAP //