{"id":5701,"date":"2025-01-15T10:53:47","date_gmt":"2025-01-15T16:53:47","guid":{"rendered":"https:\/\/aguilasalporvenir.com\/?p=5701"},"modified":"2025-01-15T10:53:47","modified_gmt":"2025-01-15T16:53:47","slug":"que-tan-buenos-son-los-clinicos-de-ia-en-las-conversaciones-medicas","status":"publish","type":"post","link":"https:\/\/aguilasalporvenir.com\/index.php\/2025\/01\/15\/que-tan-buenos-son-los-clinicos-de-ia-en-las-conversaciones-medicas\/","title":{"rendered":"\u00bfQu\u00e9 tan buenos son los \u201ccl\u00ednicos\u201d de IA en las conversaciones m\u00e9dicas?"},"content":{"rendered":"<div class=\"row landing-page-content\">\n<div class=\"columns small-12\">\n<h2 class=\"intro-subtitle\"><span>Investigadores dise\u00f1an una prueba m\u00e1s realista para evaluar las habilidades de comunicaci\u00f3n cl\u00ednica de la IA<\/span><\/h2>\n<\/div>\n<\/div>\n<div class=\"view-mode-full\">\n<div class=\"article-meta-wrapper\">\n<p class=\"article-read-time field__item\">\n<\/div>\n<div class=\"row\">\n<div class=\"body-wrapper columns small-12 medium-8\">\n<section class=\"news-multimedia\">\n<div class=\"image-wrapper field field--name-field-image-media field--type-entity-reference field--label-hidden field__items\"><img fetchpriority=\"high\" decoding=\"async\" src=\"https:\/\/hms.harvard.edu\/sites\/default\/files\/2024-12\/850%20ai%20clinician.jpg\" alt=\"Primer plano de una computadora port\u00e1til, un estetoscopio y el antebrazo de un m\u00e9dico con bata blanca\" width=\"850\" height=\"430\" \/><\/div>\n<div class=\"video--subcontent field field--name-field-media-subtitle field--type-string-long field--label-hidden field__items\">Imagen: xijian\/Getty Images<\/div>\n<\/section>\n<section class=\"hms-highlights\">\n<div class=\"bundle--highlights paragraph paragraph--type--highlights paragraph--view-mode--default\">\n<div class=\"row\">\n<div class=\"columns small-12\">\n<p class=\"heading\">De un vistazo:<\/p>\n<ul>\n<li>Los investigadores dise\u00f1an una nueva forma de evaluar de forma m\u00e1s confiable la capacidad de los modelos de IA para tomar decisiones cl\u00ednicas en escenarios realistas que imitan fielmente las interacciones de la vida real.<\/li>\n<li>El an\u00e1lisis descubre que los modelos de lenguaje grandes son excelentes para realizar diagn\u00f3sticos a partir de preguntas tipo examen, pero tienen dificultades para hacerlo a partir de notas conversacionales.<\/li>\n<li>Los investigadores proponen un conjunto de pautas para optimizar el rendimiento de las herramientas de IA y alinearlas con la pr\u00e1ctica del mundo real antes de integrarlas en la cl\u00ednica.<\/li>\n<\/ul>\n<\/div>\n<\/div>\n<\/div>\n<\/section>\n<div class=\"body field field--name-body field--type-text-with-summary field--label-hidden field__items\">\n<div class=\"field__item\">\n<p>Se ha promocionado el uso de herramientas de inteligencia artificial como ChatGPT por su capacidad de aliviar la carga de trabajo de los m\u00e9dicos mediante la clasificaci\u00f3n de pacientes, la elaboraci\u00f3n de historias cl\u00ednicas e incluso la provisi\u00f3n de diagn\u00f3sticos preliminares. Estas herramientas, conocidas como grandes modelos de lenguaje, ya est\u00e1n siendo utilizadas por los pacientes para interpretar sus s\u00edntomas y los resultados de las pruebas m\u00e9dicas.<\/p>\n<p>Pero si bien estos modelos de IA funcionan de manera impresionante en pruebas m\u00e9dicas estandarizadas, \u00bfqu\u00e9 tan bien se desempe\u00f1an en situaciones que imitan m\u00e1s de cerca el mundo real?<br \/>\nNo es tan bueno, seg\u00fan los hallazgos de un nuevo estudio dirigido por investigadores de la Facultad de Medicina de Harvard y la Universidad de Stanford.<\/p>\n<\/div>\n<\/div>\n<div class=\"field field--name-field-components field--type-entity-reference-revisions field--label-hidden field__items\">\n<div class=\"field__item\">\n<div class=\"bundle--block_reference_component paragraph paragraph--type--block-reference-component paragraph--view-mode--default\">\n<div class=\"row\">\n<div class=\"columns small-12\">\n<div class=\"field field--name-field-block-reference field--type-block-field field--label-hidden field__items\">\n<div class=\"field__item\">\n<section id=\"block-shoutout2\" class=\"block-shoutout2 block_content:6c6518b8-e4fb-4bc0-8bea-5284aa056463 block_content\">\n<div class=\"field field--name-field-components field--type-entity-reference-revisions field--label-hidden field__items\">\n<div class=\"field__item\">\n<div class=\"bundle--paragraph_component paragraph paragraph--type--paragraph-component paragraph--view-mode--default\">\n<div class=\"row\">\n<div class=\"columns small-12 medium-8 sidebar-full\"><\/div>\n<\/div>\n<\/div>\n<\/div>\n<\/div>\n<\/section>\n<\/div>\n<\/div>\n<\/div>\n<\/div>\n<\/div>\n<\/div>\n<div class=\"field__item\">\n<div class=\"bundle--paragraph_component paragraph paragraph--type--paragraph-component paragraph--view-mode--default\">\n<div class=\"row\">\n<div class=\"columns small-12 medium-8 sidebar-full\">\n<p>Para su an\u00e1lisis,\u00a0<a href=\"https:\/\/www.nature.com\/articles\/s41591-024-03328-5\">publicado el 2 de enero en\u00a0<em>Nature Medicine<\/em><\/a>\u00a0, los investigadores dise\u00f1aron un marco de evaluaci\u00f3n \u2014o una\u00a0prueba\u2014 llamado CRAFT-MD (Conversational Reasoning Assessment Framework for Testing in Medicine\u00a0) y lo implementaron en cuatro grandes modelos de lenguaje para ver qu\u00e9 tan bien se desempe\u00f1aban en entornos que imitaban de cerca las interacciones reales con los pacientes.<\/p>\n<p>Los cuatro grandes modelos ling\u00fc\u00edsticos obtuvieron buenos resultados en preguntas de tipo examen m\u00e9dico, pero su desempe\u00f1o empeor\u00f3 cuando participaron en conversaciones que imitaban m\u00e1s de cerca las interacciones del mundo real.<\/p>\n<p>Esta brecha, dijeron los investigadores, subraya una doble necesidad: primero, crear evaluaciones m\u00e1s realistas que midan mejor la idoneidad de los modelos de IA cl\u00ednica para su uso en el mundo real y, segundo, mejorar la capacidad de estas herramientas para realizar diagn\u00f3sticos basados \u200b\u200ben interacciones m\u00e1s realistas antes de que se implementen en la cl\u00ednica.<\/p>\n<p>Herramientas de evaluaci\u00f3n como CRAFT-MD, dijo el equipo de investigaci\u00f3n, no s\u00f3lo pueden evaluar los modelos de IA con mayor precisi\u00f3n para la aptitud f\u00edsica en el mundo real, sino que tambi\u00e9n podr\u00edan ayudar a optimizar su desempe\u00f1o en la cl\u00ednica.<\/p>\n<p>\u201cNuestro trabajo revela una sorprendente paradoja: si bien estos modelos de IA se destacan en los ex\u00e1menes de la junta m\u00e9dica, tienen dificultades con el intercambio b\u00e1sico de informaci\u00f3n de una visita al m\u00e9dico\u201d, dijo el autor principal del estudio,\u00a0<a href=\"https:\/\/dbmi.hms.harvard.edu\/people\/pranav-rajpurkar\">Pranav Rajpurkar<\/a>\u00a0, profesor adjunto de inform\u00e1tica biom\u00e9dica en el Instituto Blavatnik de la HMS. \u201cLa naturaleza din\u00e1mica de las conversaciones m\u00e9dicas (la necesidad de hacer las preguntas correctas en el momento correcto, de juntar informaci\u00f3n dispersa y de razonar sobre los s\u00edntomas) plantea desaf\u00edos \u00fanicos que van mucho m\u00e1s all\u00e1 de responder preguntas de opci\u00f3n m\u00faltiple. Cuando pasamos de las pruebas estandarizadas a estas conversaciones naturales, incluso los modelos de IA m\u00e1s sofisticados muestran ca\u00eddas significativas en la precisi\u00f3n del diagn\u00f3stico\u201d.<\/p>\n<h3>Una mejor prueba para comprobar el rendimiento de la IA en el mundo real<\/h3>\n<p>En este momento, los desarrolladores prueban el rendimiento de los modelos de IA pidi\u00e9ndoles que respondan preguntas m\u00e9dicas de opci\u00f3n m\u00faltiple, generalmente derivadas del examen nacional para estudiantes de medicina graduados o de pruebas realizadas a residentes m\u00e9dicos como parte de su certificaci\u00f3n.<\/p>\n<p>\u201cEste enfoque supone que toda la informaci\u00f3n relevante se presenta de forma clara y concisa, a menudo con terminolog\u00eda m\u00e9dica o palabras de moda que simplifican el proceso de diagn\u00f3stico, pero en el mundo real, este proceso es mucho m\u00e1s complicado\u201d, dijo la coautora principal del estudio Shreya Johri, estudiante de doctorado en el\u00a0<a href=\"https:\/\/www.rajpurkarlab.hms.harvard.edu\/\">Laboratorio Rajpurkar<\/a>\u00a0en HMS. \u201cNecesitamos un marco de prueba que refleje mejor la realidad y, por lo tanto, sea mejor para predecir qu\u00e9 tan bien se desempe\u00f1ar\u00e1 un modelo\u201d.<\/p>\n<p>CRAFT-MD fue dise\u00f1ado para ser uno de esos medidores m\u00e1s realistas.<\/p>\n<p>Para simular interacciones del mundo real, CRAFT-MD eval\u00faa la capacidad de los modelos de lenguaje de gran tama\u00f1o para recopilar informaci\u00f3n sobre s\u00edntomas, medicamentos y antecedentes familiares y luego hacer un diagn\u00f3stico. Se utiliza un agente de IA para hacerse pasar por un paciente y responder preguntas en un estilo conversacional y natural. Otro agente de IA califica la precisi\u00f3n del diagn\u00f3stico final emitido por el modelo de lenguaje de gran tama\u00f1o. Luego, los expertos humanos eval\u00faan los resultados de cada encuentro para determinar la capacidad de recopilar informaci\u00f3n relevante del paciente, la precisi\u00f3n del diagn\u00f3stico cuando se presenta informaci\u00f3n dispersa y el cumplimiento de las indicaciones.<\/p>\n<p>Los investigadores utilizaron CRAFT-MD para probar cuatro modelos de IA (tanto propietarios como comerciales y de c\u00f3digo abierto) para determinar su rendimiento en 2000 vi\u00f1etas cl\u00ednicas que presentaban afecciones comunes en atenci\u00f3n primaria y en 12 especialidades m\u00e9dicas.<\/p>\n<p>Todos los modelos de IA mostraron limitaciones, en particular en su capacidad para mantener conversaciones cl\u00ednicas y razonar en funci\u00f3n de la informaci\u00f3n proporcionada por los pacientes. Eso, a su vez, comprometi\u00f3 su capacidad para tomar historias cl\u00ednicas y emitir diagn\u00f3sticos apropiados. Por ejemplo, los modelos a menudo ten\u00edan dificultades para hacer las preguntas correctas para recopilar la historia cl\u00ednica pertinente del paciente, pasaban por alto informaci\u00f3n cr\u00edtica durante la toma de la historia y ten\u00edan dificultades para sintetizar informaci\u00f3n dispersa. La precisi\u00f3n de estos modelos disminuy\u00f3 cuando se les present\u00f3 informaci\u00f3n abierta en lugar de respuestas de opci\u00f3n m\u00faltiple. Estos modelos tambi\u00e9n tuvieron un peor desempe\u00f1o cuando participaron en intercambios de ida y vuelta, como lo son la mayor\u00eda de las conversaciones del mundo real, en lugar de cuando participaron en conversaciones resumidas.<\/p>\n<h3>Recomendaciones para optimizar el rendimiento de la IA en el mundo real<\/h3>\n<p>Bas\u00e1ndose en estos hallazgos, el equipo ofrece un conjunto de recomendaciones tanto para los desarrolladores de IA que dise\u00f1an modelos de IA como para los reguladores encargados de evaluar y aprobar estas herramientas.<\/p>\n<p>Estos incluyen:<\/p>\n<ul>\n<li>Uso de preguntas abiertas y conversacionales que reflejen con mayor precisi\u00f3n las interacciones no estructuradas entre m\u00e9dico y paciente en el dise\u00f1o, la capacitaci\u00f3n y la prueba de herramientas de IA<\/li>\n<li>Evaluar los modelos por su capacidad de plantear las preguntas correctas y extraer la informaci\u00f3n m\u00e1s esencial<\/li>\n<li>Dise\u00f1ar modelos capaces de seguir m\u00faltiples conversaciones e integrar informaci\u00f3n de ellas<\/li>\n<li>Dise\u00f1o de modelos de IA capaces de integrar datos textuales (notas de conversaciones) con datos no textuales (im\u00e1genes, electrocardiogramas)<\/li>\n<li>Dise\u00f1o de agentes de IA m\u00e1s sofisticados que puedan interpretar se\u00f1ales no verbales como expresiones faciales, tono y lenguaje corporal.<\/li>\n<\/ul>\n<p>Adem\u00e1s, los investigadores recomiendan que la evaluaci\u00f3n incluya tanto a agentes de IA como a expertos humanos, ya que depender \u00fanicamente de expertos humanos es costoso y requiere mucho trabajo. Por ejemplo, CRAFT-MD super\u00f3 a los evaluadores humanos, procesando 10.000 conversaciones en 48 a 72 horas, m\u00e1s 15 a 16 horas de evaluaci\u00f3n de expertos. En cambio, los enfoques basados \u200b\u200ben humanos requerir\u00edan un reclutamiento extenso y unas 500 horas para simulaciones de pacientes (casi tres minutos por conversaci\u00f3n) y unas 650 horas para evaluaciones de expertos (casi cuatro minutos por conversaci\u00f3n). El uso de evaluadores de IA como primera l\u00ednea tiene la ventaja adicional de eliminar el riesgo de exponer a pacientes reales a herramientas de IA no verificadas.<\/p>\n<p>Los investigadores dijeron que esperan que CRAFT-MD tambi\u00e9n se actualice y optimice peri\u00f3dicamente para integrar modelos mejorados de IA-paciente.<\/p>\n<p>\u201cComo m\u00e9dico-cient\u00edfico, me interesan los modelos de IA que puedan mejorar la pr\u00e1ctica cl\u00ednica de manera eficaz y \u00e9tica\u201d, afirm\u00f3 Roxana Daneshjou, coautora principal del estudio y profesora adjunta de ciencia de datos biom\u00e9dicos y dermatolog\u00eda en la Universidad de Stanford. \u201cCRAFT-MD crea un marco que refleja con mayor precisi\u00f3n las interacciones del mundo real y, por lo tanto, ayuda a que el campo avance en lo que respecta a probar el rendimiento de los modelos de IA en la atenci\u00f3n m\u00e9dica\u201d.<\/p>\n<\/div>\n<\/div>\n<p>&nbsp;<\/p>\n<p>FUENTE:<\/p>\n<p>https:\/\/hms.harvard.edu\/news<\/p>\n<\/div>\n<\/div>\n<\/div>\n<\/div>\n<\/div>\n<\/div>\n","protected":false},"excerpt":{"rendered":"<p>Investigadores dise\u00f1an una prueba m\u00e1s realista para evaluar las habilidades de comunicaci\u00f3n cl\u00ednica de la IA Imagen: xijian\/Getty Images De un vistazo: Los investigadores dise\u00f1an una nueva forma de evaluar de forma m\u00e1s confiable la capacidad de los modelos de IA para tomar decisiones cl\u00ednicas en escenarios realistas que imitan fielmente las interacciones de la [&hellip;]<\/p>\n","protected":false},"author":1,"featured_media":5702,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"_jetpack_memberships_contains_paid_content":false,"footnotes":""},"categories":[3],"tags":[],"class_list":["post-5701","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-prensa"],"blocksy_meta":[],"jetpack_featured_media_url":"https:\/\/aguilasalporvenir.com\/wp-content\/uploads\/2025\/01\/HMS-Que-tan-buenos-son-los-clinicos-de-IA-en-las-conversaciones-medicas-1.jpg","jetpack_shortlink":"https:\/\/wp.me\/pfR71O-1tX","jetpack_sharing_enabled":true,"_links":{"self":[{"href":"https:\/\/aguilasalporvenir.com\/index.php\/wp-json\/wp\/v2\/posts\/5701"}],"collection":[{"href":"https:\/\/aguilasalporvenir.com\/index.php\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/aguilasalporvenir.com\/index.php\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/aguilasalporvenir.com\/index.php\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/aguilasalporvenir.com\/index.php\/wp-json\/wp\/v2\/comments?post=5701"}],"version-history":[{"count":1,"href":"https:\/\/aguilasalporvenir.com\/index.php\/wp-json\/wp\/v2\/posts\/5701\/revisions"}],"predecessor-version":[{"id":5703,"href":"https:\/\/aguilasalporvenir.com\/index.php\/wp-json\/wp\/v2\/posts\/5701\/revisions\/5703"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/aguilasalporvenir.com\/index.php\/wp-json\/wp\/v2\/media\/5702"}],"wp:attachment":[{"href":"https:\/\/aguilasalporvenir.com\/index.php\/wp-json\/wp\/v2\/media?parent=5701"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/aguilasalporvenir.com\/index.php\/wp-json\/wp\/v2\/categories?post=5701"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/aguilasalporvenir.com\/index.php\/wp-json\/wp\/v2\/tags?post=5701"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}