Estudo da MGB demionstra qe o ChatGPT obteve 72% em precisão de decisão clínica

O desempenho do grande modelo de linguagem foi estável nos cuidados primários e de emergência, e em todas as especialidades médicas, mas teve dificuldades com diagnósticos diferenciais, de acordo com uma nova pesquisa do Mass General Brigham.

Colocando o ChatGPT à prova para ver se a IA pode funcionar durante todo um encontro clínico com um paciente – recomendando uma investigação diagnóstica, decidindo um curso de ação e fazendo um diagnóstico final – os pesquisadores do Mass General Brigham descobriram que o grande modelo de linguagem tem “impressionante precisão", apesar das limitações, incluindo possíveis alucinações.

Por que isso importa

Pesquisadores do Centro de Inovação em Pesquisa Operacional da MGB treinaram o ChatGPT, um chatbot de inteligência artificial de modelo de linguagem grande (LLM), em todas as 36 vinhetas clínicas publicadas do manual clínico da Merck Sharpe & Dohme e compararam sua precisão em diagnósticos diferenciais, testes de diagnóstico, diagnóstico final e manejo com base na idade do paciente, sexo e acuidade do caso.

“Não existem referências reais, mas estimamos que esse desempenho esteja no nível de alguém que acabou de se formar na faculdade de medicina, como um estagiário ou residente”, Dr. Marc Succi, presidente associado de inovação e comercialização e líder de inovação estratégica da MGB e diretor executivo do Grupo de Pesquisa de Inovação em Operações da Incubadora MESH, ou MESH IO, disse em um comunicado.

Os pesquisadores disseram que o ChatGPT alcançou uma precisão geral de 71,7% na tomada de decisões clínicas em todas as 36 vinhetas clínicas. ChatGPT apresentou possíveis diagnósticos e fez diagnósticos finais e decisões de gestão de cuidados.

Eles mediram a precisão do popular LLM em diagnóstico diferencial, testes diagnósticos, diagnóstico final e manejo em um processo cego estruturado, concedendo pontos para respostas corretas às perguntas feitas. Os pesquisadores então usaram a regressão linear para avaliar a relação entre o desempenho do ChatGPT e as informações demográficas da vinheta, de acordo com o estudo publicado na semana passada no Journal of Medical Internet Research.

O ChatGPT provou ser o melhor no diagnóstico final, onde a IA teve 77% de precisão no estudo, financiado em parte pelo Instituto Nacional de Ciências Médicas Gerais.

Teve o desempenho mais baixo na realização de diagnósticos diferenciais, onde teve apenas 60% de precisão, e nas decisões de gestão clínica, com desempenho inferior, com 68% de precisão com base nos dados clínicos nos quais a LLM foi treinado.

Esta é uma boa notícia para aqueles que questionaram se o ChatGPT pode realmente ofuscar a experiência dos médicos.

“O ChatGPT lutou com o diagnóstico diferencial, que é a essência da medicina quando um médico precisa descobrir o que fazer”, disse Succi. “Isso é importante porque nos diz onde os médicos são verdadeiramente especialistas e agregam mais valor – nas fases iniciais do atendimento ao paciente com pouca informação apresentada, quando é necessária uma lista de possíveis diagnósticos”.

Antes que ferramentas como o ChatGPT possam ser consideradas para integração nos cuidados clínicos, são necessárias mais pesquisas de referência e orientações regulatórias, de acordo com o MGB. Em seguida, o MESH IO está a analisa se as ferramentas de IA podem melhorar o atendimento e os resultados dos pacientes em áreas com recursos limitados dos hospitais.

A maoir tendência

Embora a maioria das ferramentas ChatGPT criadas em tecnologia de saúde se concentrem em reduzir o esgotamento médico, simplificando tarefas de documentação ou pesquisando dados e respondendo a perguntas de pacientes, uma das maiores considerações que o setor enfrenta com IA é a confiança, de acordo com o Dr. Blackford Middleton, consultor independente e ex-diretor de informações médicas da Stanford Health Care.

Para convencer os médicos das organizações prestadoras de cuidados de saúde a confiar num sistema de IA que os sistemas de saúde pretendem implementar, a transparência é fundamental. A capacidade de fornecer feedback também é essencial, "como uma vigilância pós-comercialização de medicamentos", quando a IA está envolvida na tomada de decisões para que os desenvolvedores possam ajustar os sistemas, disse Middleton no HIMSSCast em junho.

Saber quais são os dados de treinamento e os ciclos de atualização por trás do LLM é vital porque a tomada de decisões clínicas com IA é um campo “verde”.

No entanto, disse ele: "A minha convicção é que teremos - no cenário de prestação de cuidados de saúde - muitos sistemas a funcionar simultaneamente".

Fonte: Andrea Fox is senior editor of Healthcare IT News.

Email: afox@himss.org