O ChatGPT não consegue igualar os humanos num assunto: contabilidade

Os alunos foram melhores nas respostas a exames de contabilidade. O modelo de linguagem chega a citar obras e autores que nem existem.

O ChatGPT apareceu há meio ano mas parece que já passou meia década, dada a quantidade de notícias, de perspectivas, sobre o nosso novo “amigo”.

O modelo de linguagem da OpenAI, produto da Inteligência Artificial, já está a revolucionar muitas rotinas – e há quem agradeça.

O ChatGPT pode ajudar em problemas sérios de saúde, também já se intromete na música e na literatura, ou até aparece na justiça.

Por outro lado, é visto como uma ameaça nas escolas. Até já chegou a ser proibido em algumas, por causa da batota; os estudantes utilizam a tecnologia para copiar (de maneira diferente).

“Mas sempre houve oportunidades para copiar” – foi David Wood a recordar o passado.

David Wood é professor de contabilidade e o líder do estudo que tentou verificar como é que o ChatGPT se comportava num exame de contabilidade.

A equipa quis focar-se no que pode aprender com o modelo de linguagem e o que pode aproveitar do GPT.

Por isso, testaram-no. Na contabilidade.

Especialistas de quase 200 universidades, de 14 países, colocaram o ChatGPT a responder a mais de 25 mil perguntas de exames de contabilidade. E houve estudantes universitários de contabilidade que responderam às mesmas perguntas, explica o portal Science Blog.

As questões abrangiam sistemas de informação, auditoria, contabilidade financeira, gestão e contabilidade tributária. E tinham de todos os tipos: verdadeiro/falso, escolha múltipla, resposta curta…

Nota dos alunos: média de 76,7%.

Nota do ChatGPT: média de 47,4%.

Ou seja, o ChatGPT acertou em praticamente metade das respostas. É um desempenho assinalável, mas ainda está longe do desempenho humano – acertar em três de quatro respostas.

A inteligência artificial só conseguiu superar os alunos em 11% das perguntas, essencialmente em sistemas de informação e auditoria. Esteve pior em avaliações fiscais, financeiras e de gestão.

O ChatGPT acertou a maioria das perguntas com verdadeiro ou falso (68,7%) e com escolha múltipla (59,5%). Falhou nas respostas curtas (entre 28,7% e 39,1% de acerto).

No geral, a dificuldade aumentou para o ChatGPT em perguntas mais complicadas. O modelo de linguagem, por vezes, respondia à mesma pergunta de maneiras diferentes.

O estudo concluiu ainda que o ChatGPT: às vezes não reconhece que está a errar na matemática; explica as suas respostas, mesmo quando estão erradas; e inventa factos – chega a citar obras e autores que nem existem.

Os investigadores confirmaram que há aspectos a melhorar no GPT-4 mas têm noção de que o produto IA pode ajudar a melhorar o ensino e a aprendizagem, incluindo a capacidade de projectar e testar tarefas; ou poderá ser utilizado para esboçar partes de um projecto.

“É uma oportunidade para reflectir se estamos a ensinar informações de valor agregado ou não”, admitiu a co-autora do estudo e professora de contabilidade Melissa Larson.

ZAP //