La Era
2026年4月9日 · 更新于 UTC 09:19
科学

ChatGPT 在博士级科学测试中难以解读数据

哈佛医学院的一项研究显示,尽管生成式人工智能能够模仿记忆性知识,但在分析原始科学数据和图表时却表现得力不从心。

Tomás Herrera

1 分钟阅读

ChatGPT 在博士级科学测试中难以解读数据
图片来源: logomakerr.ai

哈佛医学院的研究人员发现生成式人工智能存在一个明显的短板:无法稳定地解读科学数据和图表。在本月发表于《PLOS One》的一项研究中,团队让 ChatGPT 与分子生物学专业的博士生同台竞技,结果发现该 AI 在需要高水平数据分析的任务中表现挣扎。

研究人员最初推测,AI 在基于记忆的任务中表现会很出色,而在复杂的批判性思维任务中则会受挫,但实际结果更为复杂。博士生在各项指标上均优于 AI,而这种差距主要源于 AI 在涉及数据应用和提取的基础任务中表现不佳。

数据分析成为 AI 的绊脚石

研究团队评估了 ChatGPT 在研究生课后作业中的表现。即便使用针对图像解读专门优化过的版本,AI 依然无法准确读取或综合原始科学数据。这一发现表明,当前的大型语言模型缺乏处理实验生物学中复杂视觉信息所需的专业推理能力。

“我们发现 ChatGPT 在回答简答题和选择题时,解读科学图表和原始数据的能力存在显著缺陷,”作者在文中写道。他们指出,虽然简单的提示词工程(prompt engineering)可以在一定程度上提高分数,但无法弥补其分析能力的差距。

这项由 A.C. Kwong 和 J.J. Peters 等研究人员领导的研究建议,教育工作者可以通过侧重于视觉数据解读,设计出更能抵御 AI 滥用的课外评估方式。通过减少纯描述性的问题,教授们可以确保学生真正参与到学习材料中,而不是依赖自动化的捷径。

研究人员认为,这些发现为更新学术课程提供了路线图。通过优先布置需要综合原始数据的作业,各院系即便在生成式工具日益普及的情况下,也能保持学术严谨性。该研究得到了哈佛医学院院长创新奖的资助,旨在探索人工智能在教育和研究中的整合应用。

评论

评论存储在您的浏览器本地。