杜克大学的研究人员发现,商业大语言模型(LLM)生成的创意内容彼此之间高度相似,其多样性远不及人类。
该项研究于3月24日发表在《PNAS Nexus》杂志上。研究人员采用了三种标准的创造力评估方法,对22个不同的LLM与100多名人类受试者进行了对比分析。
杜克大学电子与计算机工程系助理教授 Emily Wenger 指出,尽管用户可能认为不同的模型能提供独特的创意思路,但数据结果却并非如此。
Wenger 表示:“这项研究的核心结论是否定的。从群体层面来看,大语言模型的创造力不及人类。”
AI的同质化倾向
研究人员通过“替代用途测试”(Alternative Uses Test)和“发散性联想任务”(Divergent Association Task)等手段来衡量发散性思维。结果显示,虽然在某些特定任务中,单个AI模型的表现偶尔会超过人类,但整个AI模型群体的回答多样性却极低。
以色列理工学院(Technion)副教授 Yoed Kenett 观察到,问题的症结在于缺乏差异性。
Kenett 表示:“虽然大语言模型生成的输出看似极具原创性,但其回答过于同质化,缺乏变化。”
研究指出,由于大多数商业大语言模型都是基于相同的海量互联网数据集进行训练的,因此它们往往会趋向于使用一套共同的语言模式。如果过度依赖这些工具,这种趋同效应可能会在潜在层面压缩人类创意表达的范畴。
Wenger 警告称,过度依赖这些模型可能会导致全球范围内语言与思想的“平庸化”。
Wenger 说:“过度依赖这些工具会让全球的创作趋向于使用同一套基础词汇或语法,最终导致写作风格趋于雷同。”
为了在产品或概念开发中保持原创性,Wenger 建议应优先进行人类头脑风暴,而非盲目采纳 AI 生成的建议。