Los modelos de IA presentan dificultades en el razonamiento clínico pese a su alta precisión diagnóstica

Un estudio realizado con 21 modelos de lenguaje de gran tamaño reveló que, aunque la IA puede alcanzar diagnósticos correctos con datos completos, no logra realizar el razonamiento crítico necesario para el diagnóstico diferencial.

Lucía Paredes

13 de abril de 2026 2 min de lectura

Los modelos de IA presentan dificultades en el razonamiento clínico pese a su alta precisión diagnóstica

Médico analizando datos clínicos con asistencia de inteligencia artificial.

Investigadores de Mass General Brigham han descubierto que incluso los modelos de lenguaje de gran tamaño (LLM) más avanzados carecen del razonamiento clínico necesario para un uso médico sin supervisión.

El estudio, publicado en JAMA Network Open, puso a prueba 2l modelos de IA distintos, incluyendo versiones de ChatGPT, Claude, Gemini y Grok, planteándoles escenarios clínicos complejos.

Si bien los modelos lograron un diagnóstico final correcto en más del 90 % de los casos cuando disponían de toda la información del paciente, fallaron sistemáticamente en las etapas iniciales del proceso diagnóstico. En concreto, los modelos tuvieron dificultades para elaborar un «diagnóstico diferencial», es decir, una lista de posibles afecciones que requieren pruebas adicionales.

«Los diagnósticos diferenciales son fundamentales para el razonamiento clínico y constituyen la base del “arte de la medicina” que la IA no puede replicar actualmente», afirmó el Dr. Marc Succi, director ejecutivo de la incubadora MESH en Mass General Brigham.

El estándar de evaluación PrIME-LLM

Para medir estas deficiencias, el equipo de investigación desarrolló una nueva métrica denominada PrIME-LLM. A diferencia de las evaluaciones anteriores, centradas únicamente en la precisión, esta nueva medida evalúa la competencia en todo el flujo de trabajo diagnóstico, lo que incluye la identificación de posibles diagnósticos, la solicitud de pruebas pertinentes y la gestión del tratamiento.

Los investigadores simularon encuentros médicos reales suministrando información a los modelos de forma incremental. Comenzaron con datos demográficos básicos y síntomas del paciente, para luego añadir los hallazgos del examen físico y los resultados de laboratorio.

El Dr. Succi señaló que, por el momento, la tecnología es más adecuada para potenciar la labor de los médicos que para reemplazarlos. «La promesa de la IA en la medicina clínica sigue residiendo en su potencial para complementar, y no sustituir, el razonamiento médico, siempre que se disponga de todos los datos pertinentes, lo cual no siempre ocurre», explicó.

El estudio concluye que, dado que el rendimiento de los modelos decae cuando la información es escasa o incompleta, aún no están preparados para un uso clínico sin supervisión humana.

Los modelos de IA presentan dificultades en el razonamiento clínico pese a su alta precisión diagnóstica

El estándar de evaluación PrIME-LLM

Comentarios

Sigue leyendo

Más de Salud

Últimas noticias

Los modelos de IA presentan dificultades en el razonamiento clínico pese a su alta precisión diagnóstica

El estándar de evaluación PrIME-LLM

Sigue leyendo

Más de Salud

Liderazgo y Cáncer: 100 mujeres líderes se reúnen en Santiago para abordar brechas sociales y de salud

Crisis de salud mental escolar en Chile: reportan aumento del 74% en violencia

Instituciones de salud entregan propuestas al Minsal para enfrentar alerta oncológica

Últimas noticias

La primera Cuenta Pública de Kast: entre el reseteo gubernamental y la ofensiva opositora

Diputada Javiera Rodríguez sufre agresiones físicas en la Universidad de Chile tras denunciar amenazas

Sismo de magnitud 4.9 sacude la región de Arica y Parinacota durante la madrugada