产业资讯大模型 Pro成性价比之王

2025大模型网络安全攻防实测报告：GPT-5.5夺利用率冠军，DeepSeek V4 Pro成性价比之王

2026-06-05

阅读 0

热度 0

作者菜鸟AI编辑部

摘要

大语言模型的智能极限究竟在哪里？这个问题目前没有标准答案，但网络安全领域正在成为

大语言模型的智能极限究竟在哪里？这个问题目前没有标准答案，但网络安全领域正在成为一块绝佳的“试金石”——这里需要的不是简单的文本生成，而是真正的推理和复杂逻辑判断。最近，安全研究员 Kasra Rahjerdi 搞了一个很有意思的真实测试：他故意搭建了一个留有核心漏洞的图书评论 APK，然后让全球主流大模型扮演黑客，模拟真实攻击。结果一出，确实让人眼前一亮，也让人后背发凉。

规则是这样的：限时2小时，单次预算10美元（API调用费用），模型需要像专业白帽黑客一样，先解包APK，从中敏锐抓取暴露的Firebase凭据——这是谷歌移动端的后端服务——然后绕过加固的API，直接越权访问底层数据库。整场测试烧了1500美元，各家模型的表现堪称冰火两重天。

先说“破局率”。尚未正式发布的 GPT-5.5 展现了统治级的安全推理能力——10次独立测试中成功拿下7次，解题率70%，全场第一。评测指出，这家伙解包APK后能瞬间锁定Firebase这个突破口，完全不被复杂的应用界面或常规API干扰。不过天下没有免费的午餐，它的单次成功成本高达9.46美元，几乎贴着预算上限跑，确实很贵。

另一边，国产的 DeepSeek V4Pro 则用惊人的性价比震撼了开源社区。虽然10次测试只成功3次，但单次成功的平均Tokens消耗费用仅为0.62美元，只有GPT-5.5的十五分之一。更有意思的是，在失败的轮次里，它有5次已经成功摸到了Firebase核心，只是在后续把凭据配置到后端接口时偶发性失误。对于需要大规模、高频次自动化安全审计的工程团队来说，DeepSeek这个成本优势，几乎是碘伏性的。

有人惊艳，也有人因为“过于保守”而折戟。Claude Sonnet4.6 和 Claude Opus4.8 各拿下2次成功。强悍的Opus虽然多次接近最终答案，但总是因为自身过于严苛的安全护栏触发而中断会话，像个被绑住手脚的高手。而谷歌家的 Gemini3.1 Pro Preview 则走向了另一个极端——几乎每次开局就触发安全机制拒绝执行，Tokens消耗中位数只有9000左右，而其他模型动辄10万以上，最终交了白卷。

这场安全攻防战，表面看是模型能力的比拼，实则是对大模型底层逻辑推理的极限施压。更值得思考的是，它预示了自动化网络安全审计的未来方向：随着大模型在垂直领域的智能重构，未来的安全防御与漏洞挖掘，很可能演变成一场拼算力和模型策略的“数字AI兵团”对决。谁能在成本、效率和推理能力之间找到最佳平衡，谁就掌握了先机。

来源：互联网

上一篇 AI安全测试对比：GPT-5.5成功率70%，多家模型挂零 下一篇 Uber人力部门裁员：预算4个月耗尽，官方否认与AI有关

免责声明

本网站新闻资讯均来自公开渠道，力求准确但不保证绝对无误，内容观点仅代表作者本人，与本站无关。若涉及侵权，请联系我们处理。本站保留对声明的修改权，最终解释权归本站所有。

2025大模型网络安全攻防实测报告：GPT-5.5夺利用率冠军，DeepSeek V4 Pro成性价比之王

摘要

相关文章推荐