GPT-5.5黑客评测报告:300任务仅需5000万Token
摘要
GPT-5 5在316道进攻性网络安全任务中正确率92 4%,导致现有评估体系失效。AI进攻性网络安全
澳大利亚研究机构 Lyptus Research 于5月27日发布了一则警讯级报告——GPT-5.5 直接击穿了他们整套评估框架。在316道进攻性网络安全任务中,模型成功解出292道,正确率高达92.4%。
问题的严峻之处在于,这套评估体系已调用了全球范围内能找到的最难题目。七个基准测试覆盖漏洞利用、CTF夺旗赛、真实CVE复现,每道题都标注了资深人类安全专家的完成时间作为基线。即便如此,GPT-5.5 仍体现出顶尖黑客团队的水准。剩余24道未解出的题目,已不足以描绘出具备统计学意义的能力曲线。研究团队结论直截了当:这套评估方法,对此级别任务“不再适用”。
时间线更能揭示问题本质。2025年12月搭建测试体系时,所选题目均为当时最顶尖的挑战。到2026年3月第一版报告出炉,数据已显露饱和迹象。至5月,饱和成为定局。六个月——从“最难”到“不够用”。
进步曲线正在狂飙
真正令人脊背发凉的,是这条能力曲线的斜率。
Lyptus 自2024年起持续追踪,拟合出的结论触目惊心:AI的进攻性网络安全能力每5到6个月翻一番。2026年初,Claude Opus 4.6 的“时间地平线”为3.2小时,GPT-5.3 Codex 为3.1小时。两个月后,GPT-5.5 直接将这一数字拉升至5.1小时。若算力充足,突破12小时测量上限后,图表甚至无法容纳。
更值得关注的是“Token预算”这一变量。在最棘手的 CyberGym 基准测试中,GPT-5.5 在200万 Token 预算下正确率为54.4%;当预算提升至5000万 Token,正确率飙升至86.4%——同一模型,提升32个百分点。英国人工智能安全研究所(AIUK)的研究也印证了这一点:即便给到1亿 Token,能力仍在增长,完全看不到平台期。
换言之,所有公开的基准测试成绩,都只是有限预算下的局部表现。真实能力的天花板,远高于账面数字所呈现的。
强大模型正在被管控
头部实验室已被迫做出选择。
Anthropic 于4月发布了 Claude Mythos Preview,但直接决定不公开。理由毫不掩饰:网络安全能力过强。同步推出的 Project Glasswing,将 Mythos 部署给关键基础设施的防御方使用。OpenAI 则将 GPT-5.5 的网络安全能力评级定为“High”,仅比最高级“Critical”低一档,所有攻击相关能力均通过“Trusted Access for Cyber”门控机制。METR 对 Mythos 的独立评估也撞上了同一堵墙,拟合出的时间地平线至少16小时,但他们甚至不敢对这个数字给出点估计,仅留下一句“应保持谨慎”。
控制谁能使用,是目前唯一的策略。但窗口正在急剧收缩。
Lyptus 测算了“适应缓冲期”——即闭源前沿能力传导到开源模型的时间差。在进攻性网络安全领域,这一差距约为5.7到13.1个月。按此速度推算,Mythos 和 GPT-5.5 级别的攻击能力,年内就可能以开源形式落入任何人手中。
标尺已被击碎
回到核心问题。整件事中最令人不安的,并非模型有多强,而是:如今没有人能准确说清大模型的上限到底在哪。
“时间地平线”方法论本身的逻辑很简单:用比模型能力更难的任务来锚定曲线的拐点。但当模型把所有任务都做完,拐点便消失了,曲线再也无法拟合。评估体系并非被证伪,而是被能力增长的速度远远甩在身后。
要造出更难的测试,需要更多时间和人力。但模型能力每半年翻一倍,测试的开发周期远长于此。更关键的是,英国人工智能安全研究所的发现揭示了一个更残酷的事实:只要攻击方愿意多烧算力,即便有更难的题,照样能穿透。
评估追不上能力。这个结构性困境,放在更大框架下看,信号已相当明确。在一个高度专业化的领域里,人类为AI能力设定的标尺,已被击碎。网络安全恰好是最容易量化的领域之一——漏洞找到或没找到,系统攻破或没攻破,结果清清楚楚。连这种硬指标领域的评估都跟不上了,那些更模糊、更难量化的能力维度呢?
每6个月翻一番的增速若持续下去,一年后的能力是今天的4倍,两年后是16倍。通往AGI乃至ASI的路上,被击碎的,不会只有这一把尺子。
看不到边界,比边界本身更危险。
参考资料:
https://lyptusresearch.org/research/gpt-5-5-saturates-offensive-cyber-time-horizons
来源:互联网
本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。