¿Qué tan buenos son los “clínicos” de IA en las conversaciones médicas?

Investigadores diseñan una prueba más realista para evaluar las habilidades de comunicación clínica de la IA

Primer plano de una computadora portátil, un estetoscopio y el antebrazo de un médico con bata blanca
Imagen: xijian/Getty Images

De un vistazo:

  • Los investigadores diseñan una nueva forma de evaluar de forma más confiable la capacidad de los modelos de IA para tomar decisiones clínicas en escenarios realistas que imitan fielmente las interacciones de la vida real.
  • El análisis descubre que los modelos de lenguaje grandes son excelentes para realizar diagnósticos a partir de preguntas tipo examen, pero tienen dificultades para hacerlo a partir de notas conversacionales.
  • Los investigadores proponen un conjunto de pautas para optimizar el rendimiento de las herramientas de IA y alinearlas con la práctica del mundo real antes de integrarlas en la clínica.

Se ha promocionado el uso de herramientas de inteligencia artificial como ChatGPT por su capacidad de aliviar la carga de trabajo de los médicos mediante la clasificación de pacientes, la elaboración de historias clínicas e incluso la provisión de diagnósticos preliminares. Estas herramientas, conocidas como grandes modelos de lenguaje, ya están siendo utilizadas por los pacientes para interpretar sus síntomas y los resultados de las pruebas médicas.

Pero si bien estos modelos de IA funcionan de manera impresionante en pruebas médicas estandarizadas, ¿qué tan bien se desempeñan en situaciones que imitan más de cerca el mundo real?
No es tan bueno, según los hallazgos de un nuevo estudio dirigido por investigadores de la Facultad de Medicina de Harvard y la Universidad de Stanford.

 

FUENTE:

https://hms.harvard.edu/news

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *