理解当下,塑造未来。

搜索
UTC 03:00 · 2026年5月6日星期三 LA ERA · Chile
2026年5月6日 · 更新于 UTC 03:00
健康

诊断准确率虽高,但AI模型仍难以应对临床推理挑战

一项针对21个大语言模型的研究显示,尽管在数据完整的情况下,AI能够给出正确的诊断结果,但在进行鉴别诊断所需的关键推理环节上表现不佳。

Lucía Paredes

1 分钟阅读

诊断准确率虽高,但AI模型仍难以应对临床推理挑战
Médico analizando datos clínicos con asistencia de inteligencia artificial.

麻省总医院布里格姆(Mass General Brigham)的研究人员发现,即使是最先进的大语言模型(LLM)也缺乏在无监督医疗场景下应用所需的临床推理能力。

这项发表在《JAMA Network Open》上的研究,通过让包括 ChatGPT、Claude、Gemini 和 Grok 在内的 21 种不同 AI 模型应对复杂的临床场景,对其进行了测试。

研究发现,当患者信息完整时,这些模型的最终诊断准确率超过 90%,但在诊断过程的初期阶段却屡屡受挫。具体而言,模型在制定“鉴别诊断”(即需要进一步检查的潜在疾病清单)方面表现困难。

“鉴别诊断是临床推理的核心,也是‘医学艺术’的基础,而目前的 AI 还无法复制这种能力,”麻省总医院布里格姆 MESH 孵化器执行董事 Marc Succi 博士表示。

PrIME-LLM 基准测试

为了衡量这些缺陷,研究团队开发了一种名为 PrIME-LLM 的新指标。与以往仅关注准确率的评估方法不同,这一新指标旨在评估模型在整个诊断工作流中的能力,包括识别潜在诊断、开具适当检查以及制定治疗方案。

研究人员通过逐步向模型输入信息,模拟了真实的医疗问诊过程。他们首先提供患者的基本人口统计学信息和症状,随后逐步增加体格检查结果和实验室检查数据。

Succi 博士指出,目前这项技术更适合作为医生的辅助工具,而非替代者。他表示:“只要所有相关数据都具备,AI 在临床医学中的前景在于增强而非取代医生的推理能力——但问题在于,数据并不总是完整的。”

研究结论指出,由于模型在信息缺失或不完整时表现不佳,因此在缺乏人工监管的情况下,尚不具备开展临床级部署的条件。

评论