Tecnologia até é boa a realizar exames médicos profissionais, mas quando conversam em forma de chatbot com os “pacientes”, a história muda. O que lhe falta?
Investigadores realizaram um teste para averiguara capacidade da IA para realizar triagens médicas. Os “pacientes” eram 2000 casos médicos retirados principalmente de exames profissionais do conselho de medicina dos EUA.
No que toca a exames profissionais propriamente ditos, até estiveram bem. O problema foi o resto, denota o estudo publicado esta quinta feira na Nature.
“Embora os grandes modelos linguísticos apresentem resultados impressionantes em testes de escolha múltipla, a sua precisão diminui significativamente em conversas dinâmicas“, diz à New Scientist Pranav Rajpurkar da Universidade de Harvard. “Os modelos debatem-se particularmente com o raciocínio de diagnóstico aberto”.
4 dos principais modelos linguísticos de grande dimensão — os modelos GPT-3.5 e GPT-4 da OpenAI, o modelo Llama-2-7b da Meta e o modelo Mistral-v2-7b da Mistral AI — tiveram um desempenho consideravelmente pior na avaliação comparativa baseada em conversas do que quando efetuaram diagnósticos com base em resumos escritos dos casos.
Quando tinha hipóteses de escolha múltipla, o GPT-4 conseguiu identificar 82% das doenças, mas, quando não tinham, a sua capacidade para identificar a doença ficava negativa, nos 49%.
E quando eram simuladas conversas entre o paciente e o chatbot, a precisão caía ainda mais, para os 26%.
O GPT-4 foi o modelo de IA com melhor desempenho no estudo, com o GPT-3.5 a ficar frequentemente em segundo lugar, o modelo Mistral AI a ficar por vezes em segundo ou terceiro lugar e o modelo Llama da Meta a obter geralmente a pontuação mais baixa.
Rajpurkar denota que a prática médica no mundo real é “mais confusa” do que nas simulações, e a tecnologia ainda não parece estar pronta para a vida real, em que há “fatores sociais e sistémicos complexos“.
“O bom desempenho no nosso teste de referência sugere que a IA pode ser uma ferramenta poderosa de apoio ao trabalho clínico, mas não necessariamente um substituto para a avaliação holística de médicos experientes”, conclui o investigador.
Em 2021, questionava-se a abertura da disciplina opcional de Introdução à Poesia na Universidade do Porto para alunos de Medicina.
Na descrição da unidade curricular, escreve-se que “não é objetivo da cadeira que os alunos aprendam a escrever um poema” e refere-se a capacidade de “interpretação” e a “interatividade” como objetivos principais da disciplina.
Deveríamos, afinal, dar à IA algumas lições de poesia, para que saiba interpretar melhor as mensagens dos seus pacientes, ou há campos em que os humanos são mesmo insubstituíveis?
Temos médicos que falham diagnósticos e não são IA