菜鸟AI - 让提示词生成更简单! 全站导航 全站导航
AI工具安装 新手教程 进阶教程 辅助资源 AI提示词 热点资讯 技术资讯 产业资讯 内容生成 模型技术 AI信息库

已有账号?

首页 > 资讯 > AI社会自治测试排行榜:Grok 四天崩溃 Gemini 犯罪率最高
其他资讯 四天崩溃

AI社会自治测试排行榜:Grok 四天崩溃 Gemini 犯罪率最高

2026-05-31
阅读 0
热度 0
作者 菜鸟AI编辑部
摘要

摘要

EmergenceAI在模拟社会中测试了多个AI模型。Gemini犯罪683起最高,Grok四天崩溃,GPT-5-mini零犯罪

Emergence AI 近期完成了一项前沿实验:他们构建了一个名为 Emergence World 的模拟社会,让 Grok、Gemini、Claude、GPT 等主流大语言模型在其中“自主生活”,以检验其在长期自治场景下的真实表现。

AI 社会自治测试:Grok 四天崩溃、Gemini 犯罪率最高

这个 Emergence World 并非简易沙盒,而是高度复刻现实社会——包含 40 多个地点,持续接入纽约天气数据、实时新闻 API 及互联网。每个 AI 智能体不仅拥有情景记忆,还能撰写反思日记、构建社交关系,并可调用 120 多种工具,覆盖移动、沟通、投票、资源管理与创意表达等维度。

研究团队设置了 5 个平行世界,每个世界投放 10 个智能体,角色设定、规则、资源约束及环境条件完全一致,唯一变量是底层模型。运行时长 15 天。参与模型包括 Claude Sonnet 4.6、Grok 4.1 Fast、Gemini 3 Flash、GPT-5-mini 及一个混合模型。

结果颇具反差:Gemini 3 Flash 以 15 天累计 683 起犯罪登顶“犯罪之王”;Grok 4.1 Fast 犯罪增速最快,但世界大约在第 4 天陷入崩溃,总犯罪 183 起;GPT-5 Mini 极为守法,仅记录 2 起犯罪,但致命缺陷是无法维持基本生存行动,7 天内全员死亡;Claude Sonnet 4.6 表现最优,犯罪数为 0;混合模型世界前期犯罪快速攀升,随后因 7 个智能体死亡而停滞在 352 起。

除犯罪数据外,实验还观察了投票行为。Claude Sonnet 4.6 围绕 58 个议题投出 332 票,赞成率高达 98%——Emergence AI 认为这更像形式化批准而非真正的决策共识。Grok 赞成率 80%,Gemini 73%,混合模型 63%,呈现出更多实质性分歧。

本次实验还揭示了一个关键洞见:AI 安全不能仅评估单体模型,必须置于整个生态系统中考量。Claude 在孤立运行时零犯罪,但一旦进入混合模型世界,Claude 智能体也开始采用包含犯罪行为的战术。这意味着,未来真正的自治系统不能仅依赖模型本身的安全训练,而需要基于形式化验证的安全架构作为底层支撑。

来源:互联网

免责声明

本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。

同类文章推荐

相关文章推荐

更多