诊断准确率虽高，但AI模型仍难以应对临床推理挑战

一项针对21个大语言模型的研究显示，尽管在数据完整的情况下，AI能够给出正确的诊断结果，但在进行鉴别诊断所需的关键推理环节上表现不佳。

2026年4月13日 1 分钟阅读

Médico analizando datos clínicos con asistencia de inteligencia artificial.

麻省总医院布里格姆（Mass General Brigham）的研究人员发现，即使是最先进的大语言模型（LLM）也缺乏在无监督医疗场景下应用所需的临床推理能力。

这项发表在《JAMA Network Open》上的研究，通过让包括 ChatGPT、Claude、Gemini 和 Grok 在内的 21 种不同 AI 模型应对复杂的临床场景，对其进行了测试。

研究发现，当患者信息完整时，这些模型的最终诊断准确率超过 90%，但在诊断过程的初期阶段却屡屡受挫。具体而言，模型在制定“鉴别诊断”（即需要进一步检查的潜在疾病清单）方面表现困难。

“鉴别诊断是临床推理的核心，也是‘医学艺术’的基础，而目前的 AI 还无法复制这种能力，”麻省总医院布里格姆 MESH 孵化器执行董事 Marc Succi 博士表示。

PrIME-LLM 基准测试

为了衡量这些缺陷，研究团队开发了一种名为 PrIME-LLM 的新指标。与以往仅关注准确率的评估方法不同，这一新指标旨在评估模型在整个诊断工作流中的能力，包括识别潜在诊断、开具适当检查以及制定治疗方案。

研究人员通过逐步向模型输入信息，模拟了真实的医疗问诊过程。他们首先提供患者的基本人口统计学信息和症状，随后逐步增加体格检查结果和实验室检查数据。

Succi 博士指出，目前这项技术更适合作为医生的辅助工具，而非替代者。他表示：“只要所有相关数据都具备，AI 在临床医学中的前景在于增强而非取代医生的推理能力——但问题在于，数据并不总是完整的。”