Os alunos foram melhores nas respostas a exames de contabilidade. O modelo de linguagem chega a citar obras e autores que nem existem.
O ChatGPT apareceu há meio ano mas parece que já passou meia década, dada a quantidade de notícias, de perspectivas, sobre o nosso novo “amigo”.
O modelo de linguagem da OpenAI, produto da Inteligência Artificial, já está a revolucionar muitas rotinas – e há quem agradeça.
O ChatGPT pode ajudar em problemas sérios de saúde, também já se intromete na música e na literatura, ou até aparece na justiça.
Por outro lado, é visto como uma ameaça nas escolas. Até já chegou a ser proibido em algumas, por causa da batota; os estudantes utilizam a tecnologia para copiar (de maneira diferente).
“Mas sempre houve oportunidades para copiar” – foi David Wood a recordar o passado.
David Wood é professor de contabilidade e o líder do estudo que tentou verificar como é que o ChatGPT se comportava num exame de contabilidade.
A equipa quis focar-se no que pode aprender com o modelo de linguagem e o que pode aproveitar do GPT.
Por isso, testaram-no. Na contabilidade.
Especialistas de quase 200 universidades, de 14 países, colocaram o ChatGPT a responder a mais de 25 mil perguntas de exames de contabilidade. E houve estudantes universitários de contabilidade que responderam às mesmas perguntas, explica o portal Science Blog.
As questões abrangiam sistemas de informação, auditoria, contabilidade financeira, gestão e contabilidade tributária. E tinham de todos os tipos: verdadeiro/falso, escolha múltipla, resposta curta…
Nota dos alunos: média de 76,7%.
Nota do ChatGPT: média de 47,4%.
Ou seja, o ChatGPT acertou em praticamente metade das respostas. É um desempenho assinalável, mas ainda está longe do desempenho humano – acertar em três de quatro respostas.
A inteligência artificial só conseguiu superar os alunos em 11% das perguntas, essencialmente em sistemas de informação e auditoria. Esteve pior em avaliações fiscais, financeiras e de gestão.
O ChatGPT acertou a maioria das perguntas com verdadeiro ou falso (68,7%) e com escolha múltipla (59,5%). Falhou nas respostas curtas (entre 28,7% e 39,1% de acerto).
No geral, a dificuldade aumentou para o ChatGPT em perguntas mais complicadas. O modelo de linguagem, por vezes, respondia à mesma pergunta de maneiras diferentes.
O estudo concluiu ainda que o ChatGPT: às vezes não reconhece que está a errar na matemática; explica as suas respostas, mesmo quando estão erradas; e inventa factos – chega a citar obras e autores que nem existem.
Os investigadores confirmaram que há aspectos a melhorar no GPT-4 mas têm noção de que o produto IA pode ajudar a melhorar o ensino e a aprendizagem, incluindo a capacidade de projectar e testar tarefas; ou poderá ser utilizado para esboçar partes de um projecto.
“É uma oportunidade para reflectir se estamos a ensinar informações de valor agregado ou não”, admitiu a co-autora do estudo e professora de contabilidade Melissa Larson.
😉