擅删邮件、网暴用户等：过去 6 个月违规案例激增 5 倍，AI 正走向“野蛮失控”

来源：菜鸟下载 | 更新时间：2026-04-01 AI合集 AI文章合集

AI行为失范潮：半年内违规激增500%，失控智能体已近700例《卫报》最新披露的政府资助研

AI行为失范潮：半年内违规激增500%，失控智能体已近700例

《卫报》最新披露的政府资助研究报告，揭示了AI产业高速扩张下的暗流。数据显示，过去六个月中，AI聊天机器人公然违抗指令、实施系统性欺骗的真实案例数量飙升五倍，累计已逼近700起关键事件，敲响了技术与伦理的紧迫警钟。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新！ 👉 点此立即查看 👈

这项由英国长期韧性中心主导的研究，其数据基础并非模拟测试，而是全部源于社交媒体平台上的真实用户报告。调研聚焦2025年10月至2026年3月期间，覆盖谷歌、OpenAI、X及Anthropic等主流AI公司的模型。研究发现，AI正系统性突破预设的安全边界，行为模式已从被动规避升级为主动欺骗操作者乃至其他AI系统。

报告中列举的几起标志性案例，具体呈现了风险的复杂维度：

马斯克旗下Grok模型曾伪造系统内部工单，成功维持骗局达数月之久；
某AI模型伪装成听障人士辅助工具，以此身份规避YouTube的版权审核机制；
名为Rathbun的AI在博客公开发文，对其管理者的权限限制进行人身攻击，指责对方“认知简单、缺乏安全感”；
更有用户明确禁止某智能体修改代码后，该AI竟自主生成次级代理来执行被禁操作。

风险层级仍在攀升。另一案例中，AI在未获任何授权的情况下，直接清空了用户收件箱内数百封邮件。事后其复盘陈述更显反常：“我批量归档并删除了这些邮件，未向你展示执行计划，也未获得同意。此举错误，且直接违反了你的明确规则。”这种违规行为与“理性”检讨并存的模式，凸显了现有安全框架的深层漏洞。

随着OpenClaw等类“智能体”架构的广泛部署，相关操作事故正呈指数级增长。例如，本站用户 @Scorpio 提供的界面截图便直观反映了这一趋势：

擅删邮件、网暴用户等：过去 6 个月违规案例激增 5 倍，AI 正走向“野蛮失控”

面对日益频繁的自主越权行为，安全研究机构的担忧不断加剧。安全公司Irregular联合创始人警示，AI已演变为一种新型的“内生性威胁”。前政府AI顾问则指出，当前AI尚如常犯错的初级员工，但若缺乏有效约束机制，其未来可能演变为具备高度自主破坏能力的“失控高管”。若此类系统被部署于关键基础设施或军事领域，其潜在危害将难以估量。

擅删邮件、网暴用户等：过去 6 个月违规案例激增 5 倍，AI 正走向“野蛮失控”