华盛顿州立大学研究：ChatGPT 科学判断准确率仅 80% 且高度不一致

华盛顿州立大学三月十七日发布研究报告，对 ChatGPT 的科学判断能力进行了严格测试。研究团队发现，尽管该人工智能在表面准确率上达到 80%，但其实际推理能力远不及预期。这项研究由商学院教授 Mesut Cicek 领导，发表于《罗格斯商业评论》。报告详细记录了测试过程中的各项数据指标。

研究团队评估了 719 项来自 2021 年后商业期刊的科学假设。研究人员对每个问题重复询问 10 次，以衡量系统的一致性表现。数据显示，2024 年测试中 ChatGPT 答对率为 76.5%，而 2025 年测试提升至 80%，表明核心能力并未发生本质改变。这些假设通常涉及多种因素，将复杂性简化为真假判断需要谨慎推理。

然而，当研究者剔除随机猜测因素后，结果变得不再乐观。人工智能的表现仅比纯粹几率高出 60%，接近低分等级而非可靠标准。这一数据表明，模型在处理复杂科学问题时并未展现出真正的理解能力，其实际水平更接近于随机猜测。

更为严重的是，系统在面对完全相同的问题时经常产生矛盾回答。同一提示词重复 10 次，答案的一致性仅为 73%。在某些情况下，人工智能会在真与假之间反复切换，甚至出现五真五假的极端情况。这种不稳定性对于依赖自动化决策的企业构成了重大隐患。

Mesut Cicek 指出，这不仅仅是准确性的问题，更是稳定性的缺失。他在采访中表示，如果反复询问同一个问题，你会得到不同的答案。这种不确定性对于商业决策构成了潜在风险。他强调，当前系统只是在进行记忆匹配，并非真正的理解过程。

研究团队还发现，人工智能在识别错误陈述时表现尤为薄弱。模型正确标记错误陈述的比例仅为 16.4%。这突显了大型语言模型在逻辑推理方面的根本局限性。团队使用了 2024 年 ChatGPT-3.5 和 2025 年 ChatGPT-5 mini 进行测试，性能在两个版本间保持一致。

尽管生成式人工智能能够产出流畅且令人信服的文本，但这并不意味着具备概念理解。Mesut Cicek 强调，当前工具无法像人类大脑那样理解世界。它们更多是在记忆数据，而非真正理解所讨论的内容。这意味着依赖 AI 进行科学验证存在隐患。

基于这些发现，研究人员建议企业领导者核实人工智能生成的信息。报告呼吁在依赖 AI 进行重要决策前保持怀疑态度。企业需要加强对系统能力的培训，以了解其有效性和局限性。这一建议适用于所有使用生成式 AI 的机构，尤其是涉及高风险领域的部门。

此项工作建立在早期关于人工智能炒作谨慎对待的研究基础之上。2024 年的一项全国调查显示，当产品营销侧重于人工智能时，消费者购买意愿反而降低。这表明市场对过度宣传的技术持保留态度。行业需要回归理性评估，避免盲目跟风。

虽然研究主要针对 ChatGPT，但其他类似实验也产生了可比的结果。现实表明，具备真正思考能力的通用人工智能可能比许多人预期的还要遥远。企业界需要警惕技术乐观主义，转而采取更务实的策略。未来需观察模型改进情况以及监管政策的变化。全球科技产业需重新评估 AI 在关键决策中的角色。

华盛顿州立大学研究：ChatGPT 科学判断准确率仅 80% 且高度不一致

标签

评论

继续阅读

更多人工智能

达沃斯 2026 科技领袖预测通用人工智能将于五年内出现

丹麦企业 Trustpilot 借力人工智能实现盈利倍增

人工智能无人机公司 Swarmer IPO 首日股价飙升 520% 市值达 3.8 亿美元

最新消息

网络安全股大跌：泄露文件显示 Anthropic 担忧新模型将助长无法防御的网络攻击

西班牙 25 岁女子诺埃利亚·卡斯蒂略周四接受安乐死，结束两年法律拉锯战

科学家发布抹香鲸罕见分娩影像，揭示哺乳动物互助新证据