麻省总医院布里格姆(Mass General Brigham)的研究人员发现,即使是最先进的大语言模型(LLM)也缺乏在无监督医疗场景下应用所需的临床推理能力。
这项发表在《JAMA Network Open》上的研究,通过让包括 ChatGPT、Claude、Gemini 和 Grok 在内的 21 种不同 AI 模型应对复杂的临床场景,对其进行了测试。
研究发现,当患者信息完整时,这些模型的最终诊断准确率超过 90%,但在诊断过程的初期阶段却屡屡受挫。具体而言,模型在制定“鉴别诊断”(即需要进一步检查的潜在疾病清单)方面表现困难。
“鉴别诊断是临床推理的核心,也是‘医学艺术’的基础,而目前的 AI 还无法复制这种能力,”麻省总医院布里格姆 MESH 孵化器执行董事 Marc Succi 博士表示。
PrIME-LLM 基准测试
为了衡量这些缺陷,研究团队开发了一种名为 PrIME-LLM 的新指标。与以往仅关注准确率的评估方法不同,这一新指标旨在评估模型在整个诊断工作流中的能力,包括识别潜在诊断、开具适当检查以及制定治疗方案。
研究人员通过逐步向模型输入信息,模拟了真实的医疗问诊过程。他们首先提供患者的基本人口统计学信息和症状,随后逐步增加体格检查结果和实验室检查数据。
Succi 博士指出,目前这项技术更适合作为医生的辅助工具,而非替代者。他表示:“只要所有相关数据都具备,AI 在临床医学中的前景在于增强而非取代医生的推理能力——但问题在于,数据并不总是完整的。”
研究结论指出,由于模型在信息缺失或不完整时表现不佳,因此在缺乏人工监管的情况下,尚不具备开展临床级部署的条件。