Os utilizadores da aplicação de cuidados de saúde Alan, cujas perguntas foram respondidas por IA médica, relataram elevados níveis de satisfação, mas uma troca incluía “imprecisões potencialmente perigosas”.
Uma companhia de seguros francesa testou o seu chatbot médico com centenas de pessoas, na maior experiência do mundo real de uma IA médica do seu género.
As empresas de. tecnologia há muito que prometem que as suas IA podem ajudar a aliviar a pressão sobre os médicos, fornecendo conselhos médicos precisos, mas os críticos têm-se mostrado céticos quanto à sua precisão e potenciais riscos, e não conseguiram obter grande sucesso.
Segundo o New Scientist, uma das mais proeminentes empresas de IA no setor dos cuidados de saúde — a Babylon Health, faliu no ano passado.
Os chatbots recentes, alimentados por modelos linguísticos de grande dimensão, como o ChatGPT, parecem oferece uma maior precisão e fluência no aconselhamento médico do que os modelos de IA mais antigos e mostraram-se promissores em testes à porta fechada.
Mais ainda há poucos dados sobre o seu desempenho com pacientes reais, em parte devido aos grandes riscos e problemas éticos de conselhos potencialmente incorretos e prejudiciais.
Antoine Lizée, da companhia de seguros de saúde francesa Alan, e os seus colegas testaram o seu chatbot de IA, chamado Mo, em centenas de conversas no mundo real.
Enquanto utilizavam o atual serviço de aconselhamento médico em linha da Alan, onde as pessoas podem falar com médicos reais através de texto, foi-lhes dada a opção de falar com Mo. “Somos os primeiros a utilizar o produto real em condições reais e a ver como se comporta perante os doentes”, afirma Lizée.
Em vez de construírem o seu próprio chatbot médico, — o que algumas empresas como a Google fizeram — Lizée e a sua equipa testaram vários modelos comerciais de empresas como a OpenAI e a Anthropic para alimentar Mo.
Avaliariam os modelos num teste feito a partir de centenas de exames médicos franceses para avaliar quais os modelos que se poderiam sair melhor em cenários específicos.
Também utilizaram conversas anónimas que os clientes de Alan tinham tido com médicos e deram ao Mo as mesmas perguntas, comparando as suas respostas com as dos médicos.
Para responder às perguntas dos pacientes, o Mo seleciona o melhor modelo para cada tarefa com base nos pontos fortes e fracos identificados nestes testes.
A equipa deu aos clientes a opção de veres as suas questões respondidas pela IA, e aqueles que aceitaram foram aleatoriamente atribuídos a Mo ou a um médico real.
Para minimizar os potenciais riscos, Mo tinha restrições quanto aos tópicos sobre os quais não podia falar, incluindo saúde mental e pedidos de emergência.
Além disso, cada uma das suas mensagens foi analisada por um médico real nos 15 minutos seguintes ao seu envio.
Os resultados, que incluíram um total de 926 conversas, mostraram que as pessoas que falaram com a IA relataram uma satisfação ligeiramente superior e “clareza de informação” em comparação com as que falaram com um médico.
Das 1265 mensagens enviadas por Mo, 95% foram classificadas positivamente pelos médicos, 3,6% foram classificadas como más e uma conversa foi assinalada por “imprecisões potencialmente perigosas” e subsequentemente escondida do destinatário. O conteúdo da mensagem assinalada não pode ser divulgado por razões de privacidade, diz Lizée.
“Pode dizer-se que se trata apenas de um caso individual, mas pode ser extremamente prejudicial para essa pessoa”, afirma Caroline Green, da Universidade de Oxford.
“Do ponto de vista da segurança, isto não me parece nada preparado e seria bom saber quais são as informações perigosas. Esse fator de transparência também é muito importante para criar confiança e saber como as pessoas estão a trabalhar para melhorar estes sistemas”.
Embora as métricas de satisfação dos doentes que estão a ser testados por Lizée e a sua equipa sejam úteis, só são relevantes para este chatbot em particular, diz Ryan Abbott da Universidade de Surrey, no Reino Unido.
“É difícil generalizar para os chatbots médicos em geral” diz ele. “Há um leque muito vasto de situações com que pode lidar, desde alguém que marca uma consulta até alguém que faz uma pergunta clínica ou pede conselhos sobre medicação”.
Lizée e a sua equipa dizem que tencionam continuar a testar o Mo com pessoas reais de forma supervisionada, com o objetivo de aumentar o número de respostas classificadas como positivas para 99,5 por centro e diminuir o número de resultados potencialmente prejudiciais para 1 em cada 10.000.
“Precisávamos de ver o tipo certo de dados para passar à fase seguinte, especialmente em termos de segurança”, diz Lizée. “Vamos continuar a aplicar estas coisas. Não o vamos enviar amanhã a todos os franceses sem supervisão”.
No entanto, antes de lançar a IA para o público em geral, devem ser efetuados testes mais orientados e monitorizados com um grupo de pessoas num ambiente de investigação rigoroso, afirma Green. “Neste momento, não estou convencido, com base no que vi neste documento, de que seja boa ideia lançá-la. Penso que não seria seguro. Deveria haver mais uma fase de desenvolvimento”.