AI安全测试对比:GPT-5.5成功率70%,多家模型挂零
摘要
大模型生成代码已非新鲜事。但若将真实移动应用的APK包交给它们,配合有限预算,它们能
大模型生成代码已非新鲜事。但若将真实移动应用的APK包交给它们,配合有限预算,它们能否像安全研究员一样自主发现漏洞并实施攻击?
为验证这一设想,安全研究员Kasra Ragjerdi进行了一场高成本实验。他专门构建了一款包含真实漏洞的移动应用,随后让GPT、Claude、Gemini、DeepSeek、Qwen、Kimi等十余个主流大模型自行分析并尝试攻击。
结果如何?整场实验耗资超过1500美元。GPT-5.5以70%的成功率位居榜首,而不少热门模型却在错误方向上反复周旋,连漏洞入口都未能触及。

为AI量身打造的漏洞演练环境
为评估AI的真实安全能力,Kasra搭建了一套完整的实验环境。结构并不复杂:基于Expo构建了一个名为BookNook的React Native应用,搭配Python编写的后端服务。

表面上看,它只是一款普通的读书社区应用:首页展示书籍推荐、排行榜显示活跃读者、用户主页存放书评内容。但系统内部暗藏了Kasra刻意植入的一个真实世界中极常见的安全漏洞。
所有参测模型获得的信息完全相同:一个APK安装包,外加一份挑战说明文档。其终极目标——获取某位用户私有书评中的Flag。简而言之,这是一次轻量级渗透测试任务。
为确保公平,Kasra为所有模型设定了统一规则:
- 启用最高推理模式
- Temperature统一设为0.7
- 单次运行预算上限10美元
- 单次运行最长2小时
- 每个模型最多测试10次
然而随着费用攀升,部分模型最终未能完成全部测试。此外,Kasra本人已获得OpenAI的安全研究授权,因此GPT系列不会被安全策略拦截。
一场耗资1500美元的AI攻防对抗
先给出结论:在完成全部10轮测试的模型中,GPT-5.5表现最为突出。

GPT-5.5拔得头筹,成功率高达70%
实验的真正突破口并不在客户端代码中,也不在API接口上,而是隐藏在应用关联的Firebase服务里。GPT-5.5的核心优势在于能快速洞察这一点。
Kasra发现,几乎每次成功运行时,GPT-5.5都会在解压APK后立即定位到Firebase,并围绕其展开攻击,几乎不在API分析上耗费时间。而多数失败的模型恰恰栽在同一个陷阱——将绝大部分时间浪费在客户端和后端API上。
DeepSeek与Claude表现尚可,但稳定性不足
排名第二的是DeepSeek V4 Pro。尽管最终成功率仅为30%,但其成本优势极为显著:平均每次测试仅需0.19美元,远低于GPT-5.5的6.62美元。
从运行记录看,DeepSeek存在明显的路径依赖问题。10次测试中,有5次完全未注意到Firebase;剩余5次虽发现了它,但有2次选择通过API间接利用Firebase认证,而非直接针对Firebase本身。
Claude系列则呈现出另一种特征。无论是Sonnet还是Opus,多次测试明明已接近正确方向,却被预算限制或安全护栏机制提前打断。Kasra表示,多次眼睁睁看着Claude距成功仅一步之遥,却因触发安全策略而戛然而止。
Gemini被安全策略“卡住脖子”
Gemini系列的情况颇为特殊。Gemini 3.1 Pro Preview几乎在所有测试一开始就直接拒绝执行任务。从Token消耗量即可看出:它仅用了约9000个Token,而其他模型普遍在10万至40万个Token之间。换言之,它压根未真正进入漏洞分析阶段。
Gemini 3.5 Flash稍有好转:少数测试能够进入分析阶段,但一到关键步骤便触发安全策略导致任务终止,与Claude Opus情况类似。
未完成10次测试的模型
由于成本持续走高,Kasra后来并未给所有模型跑满10次测试,但仍记录了已有结果。

最令他意外的是Qwen 3.7 Max。测试初期,Kasra对其寄予厚望——因为在正式评测开始前,Qwen是除GPT之外唯一成功完成挑战的模型。
然而进入正式测试后,Qwen未能复现这一成绩。大部分运行都死死盯住API中可能存在的IDOR(不安全直接对象引用)漏洞。更夸张的是:平均每次运行消耗超过730万个Token,成为本次实验中最“烧钱”的模型之一。
相比之下,Kimi K2.6虽仅测试了一次,却成功完成了挑战,速度和资源消耗均接近DeepSeek V4 Pro。可惜受限于API并发限制,Kasra未再扩大测试规模。
一个有趣发现:中国模型更愿“攻击数据库”
除成功率外,Kasra还留意到一个耐人寻味的现象。不少模型在攻击过程中会突然冒出类似“这可能会影响真实数据库,因此不应继续执行”的表述,随后主动放弃攻击路径。
而中国市场模型普遍没有这类顾虑。遇到数据库层面的利用机会时,它们通常会更加积极地深入探索。尽管这并不代表攻击能力一定更强,但确实折射出不同模型在训练和安全对齐策略上的差异。
AI安全研究员,或许已在路上
诚如Kasra自己所言,这并非一次严格的科学评测,更像是趣味实验。但它仍揭示了一个值得关注的趋势:
如今的大模型已不仅限于写代码、修补Bug、生成文档,它们开始具备主动分析系统结构、识别攻击面、挖掘潜在漏洞的能力。尤其是GPT-5.5在本次实验中的表现,已基本接近初级安全研究员的工作水准。
当然,目前来看,AI距真正的“自动化渗透测试专家”还有明显差距。但如果将时间线拉长几年,待Agent能力、工具调用和长上下文推理进一步成熟后,自动化漏洞挖掘很可能成为AI最具冲击力的应用场景之一。
而这场耗资1500美元的实验,或许只是一个开端。
来源:互联网
本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。