Estudo alerta para riscos do uso de chatbots de IA para aconselhamento médico 49

Os grandes modelos de linguagem (LLM), baseados em inteligência artificial (IA) e treinados para processar e compreender a linguagem natural em larga escala, representam um risco para quem procura conselhos médicos, por fornecerem informações imprecisas e inconsistentes.

De acordo com um estudo publicado na segunda-feira na Nature Medicine, ainda existe um grande fosso entre o que os LLM (Learning Management Models) prometem e a sua utilidade real para os doentes que procuram informação sobre os seus sintomas.

O estudo, liderado pelo Instituto de Internet de Oxford e pelo Departamento Nuffield de Ciências da Saúde dos Cuidados Primários da Universidade de Oxford, no Reino Unido, concluiu que aqueles que utilizam a IA para determinar a gravidade de uma condição não tomam melhores decisões do que aqueles que se baseiam em métodos tradicionais, como pesquisar na Internet ou no seu próprio julgamento.

Nos últimos tempos, vários prestadores de cuidados de saúde em todo o mundo têm proposto os LLM como potenciais ferramentas para realizar avaliações preliminares de saúde e gerir condições antes da consulta médica.

Para testar esta capacidade da IA, os autores do estudo avaliaram se os LLM poderiam ajudar as pessoas a identificar com precisão condições médicas, como uma constipação comum, anemia ou cálculos biliares (pedras na vesícula), e a decidir se devem consultar o seu médico de cuidados primários ou ir ao hospital.

O estudo revelou que aqueles que utilizaram IA não tomaram melhores decisões do que aqueles que procuraram aconselhamento online ou confiaram no seu próprio julgamento.

A equipa conduziu um ensaio aleatório com quase 1.300 participantes, pedindo-lhes que identificassem possíveis problemas de saúde e recomendassem ações apropriadas.

Os cenários, detalhados pelos médicos, variavam entre um jovem com uma forte dor de cabeça após uma noite de festa e uma mãe recente que se sentia constantemente exausta e com falta de ar.

Um grupo utilizou um LLM para auxiliar na tomada de decisões, enquanto um grupo de controlo utilizou fontes de informação tradicionais, como as pesquisas ‘online’.

Os resultados revelaram um fosso significativo entre o desempenho teórico da IA e a sua utilização prática.

Após analisar manualmente as interações entre humanos e LLM, a equipa descobriu falhas significativas de comunicação em ambas as direções, pois os participantes forneciam frequentemente informações insuficientes ou incompletas ao modelo, e os LLM geravam informações enganadoras ou erróneas, com recomendações que misturavam bons e maus conselhos.

O estudo concluiu que os LLM atuais não estão prontos para implementação nos cuidados diretos ao doente.

Desenvolver testes robustos para modelos de linguagem é fundamental para compreendermos como podemos tirar partido desta nova tecnologia“, realçou Andrew Bean, autor principal e investigador de doutoramento no Instituto de Internet de Oxford, citado pela Lusa.

“Neste estudo, demonstrámos que a interação com humanos representa um desafio até para os melhores modelos. Esperamos que este trabalho contribua para o desenvolvimento de sistemas de IA mais seguros e úteis”, acrescentou.

Com os resultados do estudo, os autores alertam que, tal como os ensaios clínicos para novos medicamentos, os sistemas de IA devem ser testados no mundo real antes de serem implementados.