产业资讯 AI漏洞挑战排行榜

AI漏洞挑战排行榜：GPT-5.5称霸，DeepSeek性价比之王

2026-06-05

阅读 0

热度 0

作者菜鸟AI编辑部

摘要

安全研究员 Kasra Rahjerdi 最近搞了个挺有意思的实验——他专门搭建了一个故意留漏洞的图

安全研究员 Kasra Rahjerdi 最近搞了个挺有意思的实验——他专门搭建了一个故意留漏洞的图书评论应用，然后让几款主流大语言模型来“抓鬼”。这个应用里埋了个暗雷：文件里直接暴露了谷歌移动端的后端服务凭据，模型得自己解包、识别，然后拿着这把钥匙去直捣数据库。说白了，就是一场模拟真实漏洞场景的生存考验。

顶尖模型的实力对决

每轮测试限时2小时、预算10美元，条件相当苛刻。结果一出来，差距肉眼可见。GPT-5.5 的表现最扎眼：10次尝试里成功破解了7次，解题率一骑绝尘。报告里提到一个细节——这家伙几乎在解包完成的同时就锁定了关键凭据，完全没被花里胡哨的应用界面带偏。

反观 Gemini，这次的表现多少有点让人意外。Gemini 3.1 Pro Preview 在大多数任务刚开始就直接触发了内置的拒绝机制，结果它的 Token 消耗量成了全场最低，几乎等于“还没开始就结束了”。

成本效益的终极博弈

GPT-5.5 虽然成功率最高，但每次成功的平均成本高达9.46美元——对这个数字敏感的团队，估计得掂量一下钱&包。这时候，DeepSeek V4 Pro 就显出了另一番价值。它10次测试只成功了3次，但每次成功的平均花费只有0.62美元。算一笔账：单纯按单次成功的成本来算，DeepSeek V4 Pro 的花费还不到 GPT-5.5 的十五分之一。虽然它在失败的尝试里偶尔会误把认证接口当成后端去调，但如此夸张的成本优势，对于需要大规模部署安全检测的团队来说，诱惑力实在不小。

来源：互联网

上一篇 财务组织智能体变革：数字化转型新趋势 下一篇 Ask Gemini扩展至Gmail，邮箱搜索效率显著提升

免责声明

本网站新闻资讯均来自公开渠道，力求准确但不保证绝对无误，内容观点仅代表作者本人，与本站无关。若涉及侵权，请联系我们处理。本站保留对声明的修改权，最终解释权归本站所有。

AI漏洞挑战排行榜：GPT-5.5称霸，DeepSeek性价比之王

摘要

顶尖模型的实力对决

成本效益的终极博弈

相关文章推荐