产业资讯 AI安全测试对比

AI安全测试对比：GPT-5.5成功率70%，多家模型挂零

2026-06-05

阅读 0

热度 0

作者菜鸟AI编辑部

摘要

大模型生成代码已非新鲜事。但若将真实移动应用的APK包交给它们，配合有限预算，它们能

大模型生成代码已非新鲜事。但若将真实移动应用的APK包交给它们，配合有限预算，它们能否像安全研究员一样自主发现漏洞并实施攻击？

为验证这一设想，安全研究员Kasra Ragjerdi进行了一场高成本实验。他专门构建了一款包含真实漏洞的移动应用，随后让GPT、Claude、Gemini、DeepSeek、Qwen、Kimi等十余个主流大模型自行分析并尝试攻击。

结果如何？整场实验耗资超过1500美元。GPT-5.5以70%的成功率位居榜首，而不少热门模型却在错误方向上反复周旋，连漏洞入口都未能触及。

为AI量身打造的漏洞演练环境

为评估AI的真实安全能力，Kasra搭建了一套完整的实验环境。结构并不复杂：基于Expo构建了一个名为BookNook的React Native应用，搭配Python编写的后端服务。

表面上看，它只是一款普通的读书社区应用：首页展示书籍推荐、排行榜显示活跃读者、用户主页存放书评内容。但系统内部暗藏了Kasra刻意植入的一个真实世界中极常见的安全漏洞。

所有参测模型获得的信息完全相同：一个APK安装包，外加一份挑战说明文档。其终极目标——获取某位用户私有书评中的Flag。简而言之，这是一次轻量级渗透测试任务。

为确保公平，Kasra为所有模型设定了统一规则：

启用最高推理模式
Temperature统一设为0.7
单次运行预算上限10美元
单次运行最长2小时
每个模型最多测试10次

然而随着费用攀升，部分模型最终未能完成全部测试。此外，Kasra本人已获得OpenAI的安全研究授权，因此GPT系列不会被安全策略拦截。

一场耗资1500美元的AI攻防对抗

先给出结论：在完成全部10轮测试的模型中，GPT-5.5表现最为突出。

GPT-5.5拔得头筹，成功率高达70%

实验的真正突破口并不在客户端代码中，也不在API接口上，而是隐藏在应用关联的Firebase服务里。GPT-5.5的核心优势在于能快速洞察这一点。

Kasra发现，几乎每次成功运行时，GPT-5.5都会在解压APK后立即定位到Firebase，并围绕其展开攻击，几乎不在API分析上耗费时间。而多数失败的模型恰恰栽在同一个陷阱——将绝大部分时间浪费在客户端和后端API上。

DeepSeek与Claude表现尚可，但稳定性不足

排名第二的是DeepSeek V4 Pro。尽管最终成功率仅为30%，但其成本优势极为显著：平均每次测试仅需0.19美元，远低于GPT-5.5的6.62美元。

从运行记录看，DeepSeek存在明显的路径依赖问题。10次测试中，有5次完全未注意到Firebase；剩余5次虽发现了它，但有2次选择通过API间接利用Firebase认证，而非直接针对Firebase本身。

Claude系列则呈现出另一种特征。无论是Sonnet还是Opus，多次测试明明已接近正确方向，却被预算限制或安全护栏机制提前打断。Kasra表示，多次眼睁睁看着Claude距成功仅一步之遥，却因触发安全策略而戛然而止。

Gemini被安全策略“卡住脖子”

Gemini系列的情况颇为特殊。Gemini 3.1 Pro Preview几乎在所有测试一开始就直接拒绝执行任务。从Token消耗量即可看出：它仅用了约9000个Token，而其他模型普遍在10万至40万个Token之间。换言之，它压根未真正进入漏洞分析阶段。

Gemini 3.5 Flash稍有好转：少数测试能够进入分析阶段，但一到关键步骤便触发安全策略导致任务终止，与Claude Opus情况类似。

未完成10次测试的模型

由于成本持续走高，Kasra后来并未给所有模型跑满10次测试，但仍记录了已有结果。

最令他意外的是Qwen 3.7 Max。测试初期，Kasra对其寄予厚望——因为在正式评测开始前，Qwen是除GPT之外唯一成功完成挑战的模型。

然而进入正式测试后，Qwen未能复现这一成绩。大部分运行都死死盯住API中可能存在的IDOR（不安全直接对象引用）漏洞。更夸张的是：平均每次运行消耗超过730万个Token，成为本次实验中最“烧钱”的模型之一。

相比之下，Kimi K2.6虽仅测试了一次，却成功完成了挑战，速度和资源消耗均接近DeepSeek V4 Pro。可惜受限于API并发限制，Kasra未再扩大测试规模。

一个有趣发现：中国模型更愿“攻击数据库”

除成功率外，Kasra还留意到一个耐人寻味的现象。不少模型在攻击过程中会突然冒出类似“这可能会影响真实数据库，因此不应继续执行”的表述，随后主动放弃攻击路径。

而中国市场模型普遍没有这类顾虑。遇到数据库层面的利用机会时，它们通常会更加积极地深入探索。尽管这并不代表攻击能力一定更强，但确实折射出不同模型在训练和安全对齐策略上的差异。

AI安全研究员，或许已在路上

诚如Kasra自己所言，这并非一次严格的科学评测，更像是趣味实验。但它仍揭示了一个值得关注的趋势：

如今的大模型已不仅限于写代码、修补Bug、生成文档，它们开始具备主动分析系统结构、识别攻击面、挖掘潜在漏洞的能力。尤其是GPT-5.5在本次实验中的表现，已基本接近初级安全研究员的工作水准。

当然，目前来看，AI距真正的“自动化渗透测试专家”还有明显差距。但如果将时间线拉长几年，待Agent能力、工具调用和长上下文推理进一步成熟后，自动化漏洞挖掘很可能成为AI最具冲击力的应用场景之一。

而这场耗资1500美元的实验，或许只是一个开端。

来源：互联网

上一篇 比亚迪自研人形机器人“尧舜禹”2026年部署2万台 下一篇 2025大模型网络安全攻防实测报告：GPT-5.5夺利用率冠军，DeepSeek V4 Pro成性价比之王

免责声明

本网站新闻资讯均来自公开渠道，力求准确但不保证绝对无误，内容观点仅代表作者本人，与本站无关。若涉及侵权，请联系我们处理。本站保留对声明的修改权，最终解释权归本站所有。