La Era
14 abr 2026 · Actualizado 01:40 a. m. UTC
Salud

Los modelos de IA presentan dificultades en el razonamiento clínico pese a su alta precisión diagnóstica

Un estudio realizado con 21 modelos de lenguaje de gran tamaño reveló que, aunque la IA puede alcanzar diagnósticos correctos con datos completos, no logra realizar el razonamiento crítico necesario para el diagnóstico diferencial.

Lucía Paredes

2 min de lectura

Los modelos de IA presentan dificultades en el razonamiento clínico pese a su alta precisión diagnóstica
Médico analizando datos clínicos con asistencia de inteligencia artificial.

Investigadores de Mass General Brigham han descubierto que incluso los modelos de lenguaje de gran tamaño (LLM) más avanzados carecen del razonamiento clínico necesario para un uso médico sin supervisión.

El estudio, publicado en JAMA Network Open, puso a prueba 2l modelos de IA distintos, incluyendo versiones de ChatGPT, Claude, Gemini y Grok, planteándoles escenarios clínicos complejos.

Si bien los modelos lograron un diagnóstico final correcto en más del 90 % de los casos cuando disponían de toda la información del paciente, fallaron sistemáticamente en las etapas iniciales del proceso diagnóstico. En concreto, los modelos tuvieron dificultades para elaborar un «diagnóstico diferencial», es decir, una lista de posibles afecciones que requieren pruebas adicionales.

«Los diagnósticos diferenciales son fundamentales para el razonamiento clínico y constituyen la base del “arte de la medicina” que la IA no puede replicar actualmente», afirmó el Dr. Marc Succi, director ejecutivo de la incubadora MESH en Mass General Brigham.

El estándar de evaluación PrIME-LLM

Para medir estas deficiencias, el equipo de investigación desarrolló una nueva métrica denominada PrIME-LLM. A diferencia de las evaluaciones anteriores, centradas únicamente en la precisión, esta nueva medida evalúa la competencia en todo el flujo de trabajo diagnóstico, lo que incluye la identificación de posibles diagnósticos, la solicitud de pruebas pertinentes y la gestión del tratamiento.

Los investigadores simularon encuentros médicos reales suministrando información a los modelos de forma incremental. Comenzaron con datos demográficos básicos y síntomas del paciente, para luego añadir los hallazgos del examen físico y los resultados de laboratorio.

El Dr. Succi señaló que, por el momento, la tecnología es más adecuada para potenciar la labor de los médicos que para reemplazarlos. «La promesa de la IA en la medicina clínica sigue residiendo en su potencial para complementar, y no sustituir, el razonamiento médico, siempre que se disponga de todos los datos pertinentes, lo cual no siempre ocurre», explicó.

El estudio concluye que, dado que el rendimiento de los modelos decae cuando la información es escasa o incompleta, aún no están preparados para un uso clínico sin supervisión humana.

Comentarios

Los comentarios se almacenan localmente en tu navegador.