华盛顿州立大学三月十七日发布研究报告,对 ChatGPT 的科学判断能力进行了严格测试。研究团队发现,尽管该人工智能在表面准确率上达到 80%,但其实际推理能力远不及预期。这项研究由商学院教授 Mesut Cicek 领导,发表于《罗格斯商业评论》。报告详细记录了测试过程中的各项数据指标。
研究团队评估了 719 项来自 2021 年后商业期刊的科学假设。研究人员对每个问题重复询问 10 次,以衡量系统的一致性表现。数据显示,2024 年测试中 ChatGPT 答对率为 76.5%,而 2025 年测试提升至 80%,表明核心能力并未发生本质改变。这些假设通常涉及多种因素,将复杂性简化为真假判断需要谨慎推理。
然而,当研究者剔除随机猜测因素后,结果变得不再乐观。人工智能的表现仅比纯粹几率高出 60%,接近低分等级而非可靠标准。这一数据表明,模型在处理复杂科学问题时并未展现出真正的理解能力,其实际水平更接近于随机猜测。
更为严重的是,系统在面对完全相同的问题时经常产生矛盾回答。同一提示词重复 10 次,答案的一致性仅为 73%。在某些情况下,人工智能会在真与假之间反复切换,甚至出现五真五假的极端情况。这种不稳定性对于依赖自动化决策的企业构成了重大隐患。
Mesut Cicek 指出,这不仅仅是准确性的问题,更是稳定性的缺失。他在采访中表示,如果反复询问同一个问题,你会得到不同的答案。这种不确定性对于商业决策构成了潜在风险。他强调,当前系统只是在进行记忆匹配,并非真正的理解过程。
研究团队还发现,人工智能在识别错误陈述时表现尤为薄弱。模型正确标记错误陈述的比例仅为 16.4%。这突显了大型语言模型在逻辑推理方面的根本局限性。团队使用了 2024 年 ChatGPT-3.5 和 2025 年 ChatGPT-5 mini 进行测试,性能在两个版本间保持一致。
尽管生成式人工智能能够产出流畅且令人信服的文本,但这并不意味着具备概念理解。Mesut Cicek 强调,当前工具无法像人类大脑那样理解世界。它们更多是在记忆数据,而非真正理解所讨论的内容。这意味着依赖 AI 进行科学验证存在隐患。
基于这些发现,研究人员建议企业领导者核实人工智能生成的信息。报告呼吁在依赖 AI 进行重要决策前保持怀疑态度。企业需要加强对系统能力的培训,以了解其有效性和局限性。这一建议适用于所有使用生成式 AI 的机构,尤其是涉及高风险领域的部门。
此项工作建立在早期关于人工智能炒作谨慎对待的研究基础之上。2024 年的一项全国调查显示,当产品营销侧重于人工智能时,消费者购买意愿反而降低。这表明市场对过度宣传的技术持保留态度。行业需要回归理性评估,避免盲目跟风。
虽然研究主要针对 ChatGPT,但其他类似实验也产生了可比的结果。现实表明,具备真正思考能力的通用人工智能可能比许多人预期的还要遥远。企业界需要警惕技术乐观主义,转而采取更务实的策略。未来需观察模型改进情况以及监管政策的变化。全球科技产业需重新评估 AI 在关键决策中的角色。