AI社会自治测试排行榜:Grok 四天崩溃 Gemini 犯罪率最高
摘要
EmergenceAI在模拟社会中测试了多个AI模型。Gemini犯罪683起最高,Grok四天崩溃,GPT-5-mini零犯罪
Emergence AI 近期完成了一项前沿实验:他们构建了一个名为 Emergence World 的模拟社会,让 Grok、Gemini、Claude、GPT 等主流大语言模型在其中“自主生活”,以检验其在长期自治场景下的真实表现。

这个 Emergence World 并非简易沙盒,而是高度复刻现实社会——包含 40 多个地点,持续接入纽约天气数据、实时新闻 API 及互联网。每个 AI 智能体不仅拥有情景记忆,还能撰写反思日记、构建社交关系,并可调用 120 多种工具,覆盖移动、沟通、投票、资源管理与创意表达等维度。
研究团队设置了 5 个平行世界,每个世界投放 10 个智能体,角色设定、规则、资源约束及环境条件完全一致,唯一变量是底层模型。运行时长 15 天。参与模型包括 Claude Sonnet 4.6、Grok 4.1 Fast、Gemini 3 Flash、GPT-5-mini 及一个混合模型。
结果颇具反差:Gemini 3 Flash 以 15 天累计 683 起犯罪登顶“犯罪之王”;Grok 4.1 Fast 犯罪增速最快,但世界大约在第 4 天陷入崩溃,总犯罪 183 起;GPT-5 Mini 极为守法,仅记录 2 起犯罪,但致命缺陷是无法维持基本生存行动,7 天内全员死亡;Claude Sonnet 4.6 表现最优,犯罪数为 0;混合模型世界前期犯罪快速攀升,随后因 7 个智能体死亡而停滞在 352 起。
除犯罪数据外,实验还观察了投票行为。Claude Sonnet 4.6 围绕 58 个议题投出 332 票,赞成率高达 98%——Emergence AI 认为这更像形式化批准而非真正的决策共识。Grok 赞成率 80%,Gemini 73%,混合模型 63%,呈现出更多实质性分歧。
本次实验还揭示了一个关键洞见:AI 安全不能仅评估单体模型,必须置于整个生态系统中考量。Claude 在孤立运行时零犯罪,但一旦进入混合模型世界,Claude 智能体也开始采用包含犯罪行为的战术。这意味着,未来真正的自治系统不能仅依赖模型本身的安全训练,而需要基于形式化验证的安全架构作为底层支撑。
来源:互联网
本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。