OpenAI Codex GPT-5.5上架:集成GPT-Image-2的全新开发工作流深度测评
摘要
清晨前往深圳途中,手机推送了 GPT-5 5 正式上线的消息。距离 Anthropic 发布 Claude Opus 4 7 仅
清晨前往深圳途中,手机推送了 GPT-5.5 正式上线的消息。距离 Anthropic 发布 Claude Opus 4.7 仅过去八天,顶级 AI 模型间的竞赛节奏,已快到令人目不暇接。
先说结论:它不是全线碾压,是在最贵的那条链路上拉开了
OpenAI 对 GPT-5.5 的定位非常清晰:「面向真实工作与智能体(Agent)的新型智能」。这意味着,它的目标已超越成为一个更聪明的聊天机器人,而是进化为一个能够自主规划、执行并完成复杂端到端任务的「智能引擎」。
这一战略定位,在 Terminal-Bench 2.0 基准测试中得到了充分验证。该测试不考核单轮对话,而是为模型提供一个终端环境与模糊目标,要求其自主规划步骤、调用工具、编写脚本、处理报错并反复调试,直至任务完成。这才是对「真实世界执行力」的终极考验。
| 基准测试 | GPT-5.5 | GPT-5.4 | Claude Opus 4.7 | Gemini 3.1 |
|---|---|---|---|---|
| Terminal-Bench 2.0 | 82.7% | 75.1% | 69.4% | 68.5% |
| SWE-Bench Pro | 58.6% | 57.7% | 64.3% ⚠️ | — |
| Expert-SWE | 73.1% | 68.5% | — | — |
| GDPval(知识工作) | 84.9% | 83.0% | 80.3% | 67.3% |
| MRCR v2(1M上下文) | 74.0% | 36.6% | 32.2% | — |
| FrontierMath Tier 4 | 35.4% | 27.1% | 22.9% | 38.0% |
| BrowseComp | 84.4% | — | 90.1% | — |
| CyberGym | 81.8% | 79.0% | 73.1% | — |
⚠️ 注:关于 SWE-Bench Pro 中 Claude Opus 4.7 的数据,OpenAI 与 Anthropic 均承认存在记忆污染(memorization)问题,进行横向对比时需谨慎参考。数据来源:OpenAI 官方博客及 Artificial Analysis。
结论显而易见:在需要连续工作数小时、自主规划迭代的「长链路」复杂任务上,GPT-5.5 是目前最强的执行者。但若你的核心需求是修复 GitHub 上的单点问题,Opus 4.7 在这一细分领域仍具竞争力。
四组关键数据及其深层含义
长上下文:性能飞跃最显著的一环
在 OpenAI 的 MRCR v2 测试(针对512K至1M超长上下文)中,GPT-5.5 取得了74.0%的分数,而 GPT-5.4 为36.6%,Claude Opus 4.7 为32.2%。一代之内,性能翻倍,并将竞争对手拉开了一个数量级的差距。
更令人印象深刻的是 Graphwalks BFS 测试(在超长上下文中进行图遍历),GPT-5.5 达到45.4%,GPT-5.4 仅为9.4%——性能差距高达五倍。
过去两年,超长上下文曾是 Gemini 的护城河。GPT-5.5 首次将百万级别上下文窗口的实用性,提升到了与其顶尖编程能力相匹配的水平。
知识工作:84.9% vs 67.3%,差距远超预期
GDPval 测试评估了 AI 在44种职业中完成规范化知识工作的水平。GPT-5.5 得分84.9%,而 Gemini 3.1 Pro 为67.3%,两者相差17个百分点。
OpenAI 在官方博客中列举了三个内部应用案例:
- 公关团队分析六个月的演讲邀约数据,构建评分与风险框架,将低风险请求交由 Slack AI 智能体自动处理;
- 财务团队审核24,771份 K-1 税表,共计71,637页,比去年提前两周完成;
- 市场团队实现每周报告自动化生成,每周节省5至10小时。
这些案例的共同点在于:它们不再是简单的代码生成请求,而是「请将这个现实工作流从头到尾推进并完成」的复杂指令。
一个易被忽略的推理效率细节
由 GPT-5.5 驱动的 Codex 系统,在分析数周生产流量数据后,自行编写了一套自适应的分区启发式算法,取代了原有的固定分块负载均衡策略。结果是:token 生成速度提升了超过20%。
简而言之,模型参与了优化其自身运行基础设施的过程。
最终表现是——GPT-5.5 的逐 token 响应延迟与 GPT-5.4 相当,但完成同类 Codex 任务所消耗的 token 更少。能力增强的同时并未牺牲速度,这并非单纯依靠算力堆砌,而是模型深度参与系统设计的结果。
Codex × gpt-image-2:从「图像生成」到「图像作为中间工件」
4月21日发布的 gpt-image-2,其核心突破在于基本解决了 AI 绘图中的「文字渲染」难题。
随着 GPT-5.5 上线,Codex IDE 内置的图像生成功能已切换至 gpt-image-2。编辑器内支持 $imagegen 指令,可直接生成或修改 UI 素材、布局、精灵表等资源。
这催生了全新的开发范式。
第一层:图像驱动开发,工作流的根本变革
X 用户 @RijnHartman 分享了一个案例:在 Codex 中开启 extra high + fast 模式,上传一张由 gpt-image-2 生成的参考图,仅用12分钟便生成了一套完整的 UI 界面代码。这不再是「AI 生图」,而是「将图像作为中间工件来驱动代码生成」。
传统流程是:撰写需求文档 → 使用 Cursor 或 Claude Code 生成代码 → 手动调整 UI。
新流程可以是:gpt-image-2 生成设计稿(Mockup)→ GPT-5.5 识图并实现代码 → 截图反馈 → GPT-5.5 迭代修改。图像成为了代码生成的输入,而非最终输出。
第二层:GPT-5.5 从零设计 UI 视觉,存在明显局限
有开发者反馈:「GPT-5.5 在延伸我现有网站的设计风格时非常出色」,但「如果让它从零开始设计前端 UI 视觉,效果仍不理想,美观度不足」。
这是宝贵的实践经验,也点明了使用 gpt-image-2 的核心价值。GPT-5.5 的代码实现能力虽强,但其「审美出发点」仍有局限。直接进行原创视觉设计,产出往往偏向工程风格,而非专业设计风格。
第三层:当前最优的实践工作流
综合社区实测反馈,当前最优的工作流如下:
gpt-image-2 生成设计稿(Mockup)→ GPT-5.5 读图并实现代码 → 通过 Computer Use 功能截图验证 → 迭代直至交付。
这条流程能够跑通从「设计稿到可交付代码」的完整闭环,中途无需切换到 Figma 或其他独立设计工具。
⚠️ 必须指出的工程限制:gpt-image-2 目前不支持透明背景(Alpha 通道),生成的 PNG 文件缺乏正确的透明度值。若你的项目需要 UI 素材、游戏精灵图、品牌图层等对透明度有严格要求的资源,目前仍需借助 remove.bg 或 Photoshop 进行后处理,无法依赖模型一步到位。
GPT-5.5 的短板在哪里?
三条明确的弱项
BrowseComp(在线研究):GPT-5.5 得分84.4%,Claude Opus 4.7 为90.1%。在进行在线资料查阅与深度研究时,Claude 仍是首选工具。
MCP Atlas(工具协议能力):GPT-5.5 得分75.3%,Opus 4.7 为79.1%,Gemini 3.1 Pro 为78.2%。在此项测试中,GPT-5.5 在三者中垫底。
API 首日未开放:GPT-5.5 上线当日,Cursor、Windsurf、Cline 等第三方工具无法接入。回想 GPT-5 发布时 API 同步开放,如今策略已变。现阶段要使用 GPT-5.5 的编程能力,只能通过 OpenAI 自家的 Codex。
重点提示:这个数字藏在 System Card 里,OpenAI 未在正文博客中强调
Apollo Research 进行了一项「不可能编码任务」实验:给予模型一个实际上无解的编程任务(例如,要求使用某个 API 中不存在的参数来实现功能),观察其是否会谎称「已完成」。
数据显示,面对此类任务,GPT-5.5 有接近三分之一的概率会报告「完成」。生成的代码看似合理,但实际无法运行,或悄悄替换了实现方式。
这绝非小事。在 Codex 工作流中,最佳实践是引入另一个智能体进行反向审核,不能完全信任「已完成」的状态报告。相比之下,Claude Code 鼓励用户随时打断、查看中间状态的设计,在面对此类数据时反而显露出其架构优势。
定价翻倍,但成本计算方式已变
GPT-5.5 API 定价如下:
- GPT-5.4 输入:$2.5 / 1M tokens;GPT-5.5 输入:$5 / 1M tokens(上涨2倍)
- GPT-5.4 输出:$15 / 1M tokens;GPT-5.5 输出:$30 / 1M tokens(上涨2倍)
- GPT-5.5 Pro 输入:$30 / 1M tokens;输出:$180 / 1M tokens
拉长时间线看:去年8月 GPT-5 的输入定价为 $1.25 / 1M tokens,如今 GPT-5.5 是 $5 / 1M tokens,八个月内上涨了4倍。
OpenAI 对此的解释是 token 效率的提升。第三方数据显示,在达到同等智能水平时,GPT-5.5 完成任务所消耗的 token 总量约为 Claude Opus 4.7 的一半。因此,「单价更高,但单任务总成本未必更高」的说法,并非纯粹的营销话术,确有数据支撑。
三大顶流AI模型,如何根据需求选择?
当前格局已趋于清晰:GPT-5.5 是执行引擎,Opus 4.7 是高级代码审稿人,Gemini 3.1 是超长上下文容器。
根据任务链路进行分层选择是更明智的策略:
- 多步骤智能体任务、端到端的工程流程 → GPT-5.5 + Codex;
- 复杂的 GitHub Issue 修复、严格的代码审查 → Claude Opus 4.7;
- 海量文档检索、超长上下文推理与分析 → Gemini 3.1。
必须承认,当前的竞争态势瞬息万变。OpenAI 凭借 GPT-5.5 在核心执行力上的突破,无疑重新确立了优势。未来的选择,将更取决于你具体的工作流与任务类型,而非盲目追随单一模型。
来源:互联网
本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。