Para su análisis, publicado el 2 de enero en Nature Medicine , los investigadores diseñaron un marco de evaluación —o una prueba— llamado CRAFT-MD (Conversational Reasoning Assessment Framework for Testing in Medicine ) y lo implementaron en cuatro grandes modelos de lenguaje para ver qué tan bien se desempeñaban en entornos que imitaban de cerca las interacciones reales con los pacientes.
Los cuatro grandes modelos lingüísticos obtuvieron buenos resultados en preguntas de tipo examen médico, pero su desempeño empeoró cuando participaron en conversaciones que imitaban más de cerca las interacciones del mundo real.
Esta brecha, dijeron los investigadores, subraya una doble necesidad: primero, crear evaluaciones más realistas que midan mejor la idoneidad de los modelos de IA clínica para su uso en el mundo real y, segundo, mejorar la capacidad de estas herramientas para realizar diagnósticos basados en interacciones más realistas antes de que se implementen en la clínica.
Herramientas de evaluación como CRAFT-MD, dijo el equipo de investigación, no sólo pueden evaluar los modelos de IA con mayor precisión para la aptitud física en el mundo real, sino que también podrían ayudar a optimizar su desempeño en la clínica.
“Nuestro trabajo revela una sorprendente paradoja: si bien estos modelos de IA se destacan en los exámenes de la junta médica, tienen dificultades con el intercambio básico de información de una visita al médico”, dijo el autor principal del estudio, Pranav Rajpurkar , profesor adjunto de informática biomédica en el Instituto Blavatnik de la HMS. “La naturaleza dinámica de las conversaciones médicas (la necesidad de hacer las preguntas correctas en el momento correcto, de juntar información dispersa y de razonar sobre los síntomas) plantea desafíos únicos que van mucho más allá de responder preguntas de opción múltiple. Cuando pasamos de las pruebas estandarizadas a estas conversaciones naturales, incluso los modelos de IA más sofisticados muestran caídas significativas en la precisión del diagnóstico”.
Una mejor prueba para comprobar el rendimiento de la IA en el mundo real
En este momento, los desarrolladores prueban el rendimiento de los modelos de IA pidiéndoles que respondan preguntas médicas de opción múltiple, generalmente derivadas del examen nacional para estudiantes de medicina graduados o de pruebas realizadas a residentes médicos como parte de su certificación.
“Este enfoque supone que toda la información relevante se presenta de forma clara y concisa, a menudo con terminología médica o palabras de moda que simplifican el proceso de diagnóstico, pero en el mundo real, este proceso es mucho más complicado”, dijo la coautora principal del estudio Shreya Johri, estudiante de doctorado en el Laboratorio Rajpurkar en HMS. “Necesitamos un marco de prueba que refleje mejor la realidad y, por lo tanto, sea mejor para predecir qué tan bien se desempeñará un modelo”.
CRAFT-MD fue diseñado para ser uno de esos medidores más realistas.
Para simular interacciones del mundo real, CRAFT-MD evalúa la capacidad de los modelos de lenguaje de gran tamaño para recopilar información sobre síntomas, medicamentos y antecedentes familiares y luego hacer un diagnóstico. Se utiliza un agente de IA para hacerse pasar por un paciente y responder preguntas en un estilo conversacional y natural. Otro agente de IA califica la precisión del diagnóstico final emitido por el modelo de lenguaje de gran tamaño. Luego, los expertos humanos evalúan los resultados de cada encuentro para determinar la capacidad de recopilar información relevante del paciente, la precisión del diagnóstico cuando se presenta información dispersa y el cumplimiento de las indicaciones.
Los investigadores utilizaron CRAFT-MD para probar cuatro modelos de IA (tanto propietarios como comerciales y de código abierto) para determinar su rendimiento en 2000 viñetas clínicas que presentaban afecciones comunes en atención primaria y en 12 especialidades médicas.
Todos los modelos de IA mostraron limitaciones, en particular en su capacidad para mantener conversaciones clínicas y razonar en función de la información proporcionada por los pacientes. Eso, a su vez, comprometió su capacidad para tomar historias clínicas y emitir diagnósticos apropiados. Por ejemplo, los modelos a menudo tenían dificultades para hacer las preguntas correctas para recopilar la historia clínica pertinente del paciente, pasaban por alto información crítica durante la toma de la historia y tenían dificultades para sintetizar información dispersa. La precisión de estos modelos disminuyó cuando se les presentó información abierta en lugar de respuestas de opción múltiple. Estos modelos también tuvieron un peor desempeño cuando participaron en intercambios de ida y vuelta, como lo son la mayoría de las conversaciones del mundo real, en lugar de cuando participaron en conversaciones resumidas.
Recomendaciones para optimizar el rendimiento de la IA en el mundo real
Basándose en estos hallazgos, el equipo ofrece un conjunto de recomendaciones tanto para los desarrolladores de IA que diseñan modelos de IA como para los reguladores encargados de evaluar y aprobar estas herramientas.
Estos incluyen:
- Uso de preguntas abiertas y conversacionales que reflejen con mayor precisión las interacciones no estructuradas entre médico y paciente en el diseño, la capacitación y la prueba de herramientas de IA
- Evaluar los modelos por su capacidad de plantear las preguntas correctas y extraer la información más esencial
- Diseñar modelos capaces de seguir múltiples conversaciones e integrar información de ellas
- Diseño de modelos de IA capaces de integrar datos textuales (notas de conversaciones) con datos no textuales (imágenes, electrocardiogramas)
- Diseño de agentes de IA más sofisticados que puedan interpretar señales no verbales como expresiones faciales, tono y lenguaje corporal.
Además, los investigadores recomiendan que la evaluación incluya tanto a agentes de IA como a expertos humanos, ya que depender únicamente de expertos humanos es costoso y requiere mucho trabajo. Por ejemplo, CRAFT-MD superó a los evaluadores humanos, procesando 10.000 conversaciones en 48 a 72 horas, más 15 a 16 horas de evaluación de expertos. En cambio, los enfoques basados en humanos requerirían un reclutamiento extenso y unas 500 horas para simulaciones de pacientes (casi tres minutos por conversación) y unas 650 horas para evaluaciones de expertos (casi cuatro minutos por conversación). El uso de evaluadores de IA como primera línea tiene la ventaja adicional de eliminar el riesgo de exponer a pacientes reales a herramientas de IA no verificadas.
Los investigadores dijeron que esperan que CRAFT-MD también se actualice y optimice periódicamente para integrar modelos mejorados de IA-paciente.
“Como médico-científico, me interesan los modelos de IA que puedan mejorar la práctica clínica de manera eficaz y ética”, afirmó Roxana Daneshjou, coautora principal del estudio y profesora adjunta de ciencia de datos biomédicos y dermatología en la Universidad de Stanford. “CRAFT-MD crea un marco que refleja con mayor precisión las interacciones del mundo real y, por lo tanto, ayuda a que el campo avance en lo que respecta a probar el rendimiento de los modelos de IA en la atención médica”.