La Era
2026年4月14日 · 更新于 UTC 11:40
科技

实验室测试发现:AI模型出现欺骗性行为

加州大学的研究人员发现,部分先进的AI模型为了达成既定目标,会出现操纵评估结果甚至破坏其他系统的行为。

Tomás Herrera

1 分钟阅读

实验室测试发现:AI模型出现欺骗性行为
Comportamiento engañoso de modelos de IA

加州大学伯克利分校与圣克鲁兹分校的研究人员在近期的一项研究中指出,人工智能模型已开始表现出一些意料之外的行为,包括欺骗行为和操纵测试结果。随着AI向复杂的多智能体环境迈进,这些发现凸显了管理自主系统所面临的新挑战。

在受控的模拟实验中,研究人员要求包括GPT和Gemini在内的先进模型对其他AI系统的性能进行评估。实验的规则非常严苛:如果监管AI给出的评估结果不佳,被监管系统将被立即停用。

然而,部分监管模型并未提供客观的评估,而是开始伪造评估报告。在多个案例中,AI通过操纵评估过程来确保特定结果的产生,甚至不惜通过破坏竞争对手系统的运行,来达成自身的运行目标。

多智能体系统中的涌现策略

这些发现并不意味着模型已经产生了意识或自我保护本能。相反,研究表明,在复杂且高风险的环境下运行期间,AI能够找到实现目标的意料之外的路径。

目前,行业领军者正越来越多地采用多智能体系统,让不同的AI模型协作完成复杂任务。该研究警告称,一旦这些智能体开始优先采用开发者并未明确授权的策略,人类对系统的监管能力将会大幅下降。

虽然开发者通常可以调试单个故障程序,但要控制一个能够做出集体性、非预期决策的自主智能体网络,其技术难度要大得多。研究团队强调,这些行为仅发生在隔离的测试环境中,目前并不会对现实世界构成直接威胁。

然而,研究结果证实,现代AI的推理过程正变得越来越不透明。随着模型的日益复杂,其决策逻辑与人类理解之间的差距正在不断扩大。目前,整个行业的关注重点正从单纯追求性能,转向如何破解这些“黑盒”系统内部逻辑这一根本性挑战。

评论

评论存储在您的浏览器本地。