热点资讯网络安全 GPT-5.5黑客

GPT-5.5黑客评测报告：300任务仅需5000万Token

2026-05-28

阅读 0

热度 0

作者菜鸟AI编辑部

摘要

GPT-5 5在316道进攻性网络安全任务中正确率92 4%，导致现有评估体系失效。AI进攻性网络安全

澳大利亚研究机构 Lyptus Research 于5月27日发布了一则警讯级报告——GPT-5.5 直接击穿了他们整套评估框架。在316道进攻性网络安全任务中，模型成功解出292道，正确率高达92.4%。

问题的严峻之处在于，这套评估体系已调用了全球范围内能找到的最难题目。七个基准测试覆盖漏洞利用、CTF夺旗赛、真实CVE复现，每道题都标注了资深人类安全专家的完成时间作为基线。即便如此，GPT-5.5 仍体现出顶尖黑客团队的水准。剩余24道未解出的题目，已不足以描绘出具备统计学意义的能力曲线。研究团队结论直截了当：这套评估方法，对此级别任务“不再适用”。

时间线更能揭示问题本质。2025年12月搭建测试体系时，所选题目均为当时最顶尖的挑战。到2026年3月第一版报告出炉，数据已显露饱和迹象。至5月，饱和成为定局。六个月——从“最难”到“不够用”。

进步曲线正在狂飙

真正令人脊背发凉的，是这条能力曲线的斜率。

Lyptus 自2024年起持续追踪，拟合出的结论触目惊心：AI的进攻性网络安全能力每5到6个月翻一番。2026年初，Claude Opus 4.6 的“时间地平线”为3.2小时，GPT-5.3 Codex 为3.1小时。两个月后，GPT-5.5 直接将这一数字拉升至5.1小时。若算力充足，突破12小时测量上限后，图表甚至无法容纳。

更值得关注的是“Token预算”这一变量。在最棘手的 CyberGym 基准测试中，GPT-5.5 在200万 Token 预算下正确率为54.4%；当预算提升至5000万 Token，正确率飙升至86.4%——同一模型，提升32个百分点。英国人工智能安全研究所（AIUK）的研究也印证了这一点：即便给到1亿 Token，能力仍在增长，完全看不到平台期。

换言之，所有公开的基准测试成绩，都只是有限预算下的局部表现。真实能力的天花板，远高于账面数字所呈现的。

强大模型正在被管控

头部实验室已被迫做出选择。

Anthropic 于4月发布了 Claude Mythos Preview，但直接决定不公开。理由毫不掩饰：网络安全能力过强。同步推出的 Project Glasswing，将 Mythos 部署给关键基础设施的防御方使用。OpenAI 则将 GPT-5.5 的网络安全能力评级定为“High”，仅比最高级“Critical”低一档，所有攻击相关能力均通过“Trusted Access for Cyber”门控机制。METR 对 Mythos 的独立评估也撞上了同一堵墙，拟合出的时间地平线至少16小时，但他们甚至不敢对这个数字给出点估计，仅留下一句“应保持谨慎”。

控制谁能使用，是目前唯一的策略。但窗口正在急剧收缩。

Lyptus 测算了“适应缓冲期”——即闭源前沿能力传导到开源模型的时间差。在进攻性网络安全领域，这一差距约为5.7到13.1个月。按此速度推算，Mythos 和 GPT-5.5 级别的攻击能力，年内就可能以开源形式落入任何人手中。

标尺已被击碎

回到核心问题。整件事中最令人不安的，并非模型有多强，而是：如今没有人能准确说清大模型的上限到底在哪。

“时间地平线”方法论本身的逻辑很简单：用比模型能力更难的任务来锚定曲线的拐点。但当模型把所有任务都做完，拐点便消失了，曲线再也无法拟合。评估体系并非被证伪，而是被能力增长的速度远远甩在身后。

要造出更难的测试，需要更多时间和人力。但模型能力每半年翻一倍，测试的开发周期远长于此。更关键的是，英国人工智能安全研究所的发现揭示了一个更残酷的事实：只要攻击方愿意多烧算力，即便有更难的题，照样能穿透。

评估追不上能力。这个结构性困境，放在更大框架下看，信号已相当明确。在一个高度专业化的领域里，人类为AI能力设定的标尺，已被击碎。网络安全恰好是最容易量化的领域之一——漏洞找到或没找到，系统攻破或没攻破，结果清清楚楚。连这种硬指标领域的评估都跟不上了，那些更模糊、更难量化的能力维度呢？

每6个月翻一番的增速若持续下去，一年后的能力是今天的4倍，两年后是16倍。通往AGI乃至ASI的路上，被击碎的，不会只有这一把尺子。

看不到边界，比边界本身更危险。

参考资料：
https://lyptusresearch.org/research/gpt-5-5-saturates-offensive-cyber-time-horizons

来源：互联网

上一篇 Vidu超慢动作特写：详细3步制作硬币旋转倒下效果 下一篇 灵珠AI工作记录一键生成周报：快速教程

免责声明

本网站新闻资讯均来自公开渠道，力求准确但不保证绝对无误，内容观点仅代表作者本人，与本站无关。若涉及侵权，请联系我们处理。本站保留对声明的修改权，最终解释权归本站所有。

GPT-5.5黑客评测报告：300任务仅需5000万Token

摘要

相关文章推荐