产业资讯

国产AI编程全球第二：五大Vibe Coding神器测评榜

2026-05-28

阅读 0

热度 0

作者菜鸟AI编辑部

摘要

阿里旗舰模型Qwen3 7Max在编程竞技榜上超越GPT-5 5等多款模型，位列全球第二。实测显示其在

超越 GPT-5.5、Gemini 3.5 Flash、DeepSeek V4 Pro，阿里最新旗舰模型 Qwen3.7 Max 在编程竞赛排行榜上斩获亚军，仅次于 Claude Opus 4.7。

5月26日排行榜快照

除了真实场景的用户偏好，在传统大模型固定评测榜单——如终端能力 Terminal Bench、编程能力 SWE Bench——上，Qwen3.7 Max 的表现同样位居国产模型之首。

大模型发展四年，排行榜更迭已司空见惯，但这款超越 GPT 5.5 的 Qwen 模型，真实实力究竟怎样？我们决定亲自上手实测。

目前最热门的 Coding Agent 方案，通常是 GPT 5.5 配合 Codex。如果将 Codex 默认模型替换为 Qwen3.7 Max，在日常开发任务中能否超越 GPT 5.5 的体验？

获取 Qwen3.7 Max API 与免费额度

正值各家平台推广 Token 优惠，阿里云同样提供 100 万 Token 免费额度，可通过阿里云百炼平台直接领取使用。

Qwen3.7 Max 当前限时五折定价：输入 6 元/百万 tokens，输出 18 元/百万 tokens。新用户还可通过五折充值节省计划，仅需 10 元/月即可获得 20 元 Token 额度，而标准 Token Plan 为 198 元/月。

根据大模型聚合平台 OpenRouter 数据，Qwen3.7 Max 的定价处于中等水平。虽然比 DeepSeek 的超低价高出不少，但相比 Opus 4.7 和 GPT 5.5，依然具备明显价格优势。

我直接选择了「入门首选」档位（全模型通用抵扣 20 元）。需注意：五折优惠仅限一个套餐，购买 10 元档后，将无法再享受 50、250 元档位的半价计划。

五大模型实战对比：DeepSeek、Claude、GPT、Gemini、Qwen 同场竞技

获取 API Key 与百万免费 Token 后，我们先后在阿里云百炼平台和千问官网，使用 Qwen3.7 Max 执行了一系列典型前端网页开发任务。

首先进行直观的物理模拟测试：仅用一句简单提示词——“用 HTML+CSS+JS 做一个模拟液体在容器里晃动的动画，拖动容器可以改变倾斜角度。”

Qwen3.7 Max 在千问官网生成的液体模拟效果

Qwen3.7 Max 顺利完成模拟挑战，并额外实现了颜色自定义、摇晃幅度调节、液体量控制等扩展功能。

DeepSeek 的输出相对简洁，但未出现明显错误。

GPT-5.5 生成的液体表现有些怪异——虽能根据角度改变流向，但波浪效果显得突兀。

Gemini 3.5 Flash 生成的网页存在小 Bug：瓶子始终隐藏在控制面板后方，需要手动拖拽才能显示。但其自定义选项极为丰富：瓶子类型、液体颜色、各类参数均可随心调节。

Claude Opus 4.7 的瓶子模型过于简单，剧烈晃动时液体模拟效果类似音波跳动。

接下来尝试生成一款小游戏。尽管游戏测试已是去年 Vibe Coding 的常规项目，但本次要求 AI 制作六宫格 2048 游戏——提示词：“做一个可以玩的 2048，但格子是六边形的。”

Qwen3.7 Max 生成的页面视觉效果不错，参考来源 10 条信息中多数来自 CSDN 的 2048 教程。游戏可玩，但偶尔出现同一方向相同数字未能正确合并的问题。

DeepSeek V4 表现与上一轮类似，但六边形布局下键盘控制仅支持 WASD 四个方向。

本轮表现最佳的是 Claude Opus 4.7——它精准理解了蜂巢格子的移动逻辑，操作体验清晰流畅。

GPT 5.5 借助 Codex 能力，生成游戏后自动打开浏览器预览、抓取控制台日志修复代码，最终网页质量优秀。但鼠标移动方向监测仍不及 Opus 4.7 精准。

Gemini 3.5 Flash 一如既往地提供了大量附加功能：赛博、暗金、马卡三种背景主题，并内置“高品质合音器”。

游戏全程配有原生 Web Audio 生成的复古 8-bit 太空音效（合并、滑动、过关、死亡），沉浸感瞬间拉满。

再测试一个普通网页设计任务：要求制作一个地铁博物馆网站，提示词仅一句——“设计一个名为地铁博物馆的主题网站，要求沉浸感强。”

预期模型能尽可能展示不同城市的地铁信息、全球地铁 Logo，整体风格偏向艺术性，具备独特设计感与丰富特效。

先看 Qwen3.7 Max：坦白说评价有些困难——文字竖排确实模仿地铁列车风格，但整体布局显得杂乱。

Gemini 继续保持了丰富度，再次加入音效，并制作了地铁文创功能——定制纪念票根生成器，输入姓名、选择车站，即可实时生成一张复古风地铁纪念乘车票。

上下滑动浏览更多内容｜Gemini 3.5 Flash 在官网通过 Canvas 选项生成

DeepSeek 选用的项目与 Gemini 类似——同样包含票务纪念与驾驶体验，但最终交付成果中并未实际实现这些功能。

GPT 5.5 生成的网页风格可取，虽带有明显模板痕迹，但整体设计水准在线，可惜信息量不足——模型似乎未能理解地铁博物馆应展示地铁相关知识。

继续使用此前提示词要求模型制作浏览器操作系统——“用 HTML 构建一个完整的浏览器操作系统。”

DeepSeek V4 输出简洁，Qwen3.7 Max 同样简单，但这次额外附带了一张不错的桌面风景图片。

本次测试中真正令人满意的是 Gemini 3.5 Flash 和 GPT 5.5。与 Gemini 类似，GPT 5.5 也对整个操作系统进行了详尽设计，具备独特风格。

在 Codex 中集成 Qwen3.7 Max 的实战体验

一轮测试显示，Qwen3.7 Max 在对话式生成小型网页项目时，虽未必每项都超越 Gemini 或 GPT 5.5，但相比前代已有显著进步。

千问官网展示了若干代码案例，如 3D 地球、食物链排序、数据可视化、个人博客等，但这些项目的提示词较长，并非我们测试时使用的简单一句话。

输入提示词后，千问界面提供了“优化指令”选项。

将 3D 地球项目的提示词分别交给 DeepSeek V4、Gemini 3.5 Flash，生成效果与 Qwen3.7 Max 几乎相同。

这意味着，当前阶段提示词的质量依然是决定 Qwen3.7 Max 能力释放的关键。降低用户优化提示词负担的有效途径是接入 Agent 产品，借助 Skills 与 Agent 协作等能力，充分释放模型潜能。

按照阿里云官方教程，我将 Qwen3.7 Max 成功接入 Codex 终端助手。

但此处容易遇到 Bug——Codex 持续提示“CODEX Missing environment variable”。按官方教程，修改 ~/.codex/config.toml 配置文件后，还需修改系统环境变量。即模型的 API KEY 需保存在系统环境变量（需根据 Shell 类型编辑对应的 .bash_profile 或 .zshrc）中，而非 Codex 的 config.toml 文件。

修改完成后，终端输入 Codex 即可看到 Qwen3.7 Max，重新启动 Codex App，主界面模型将从 GPT-5.5 自动切换至自定义的 Custom。

采用相同方法，可将 DeepSeek、MiniMax、Kimi、智谱等模型逐一接入 Codex。

此前 GitHub 上一个前端 Skill 获得超 2 万 Star，核心功能是让 AI 生成更美观的前端界面，这与 Qwen3.7 Max 夺得第二名的榜单任务性质类似。我们先将该 Skill 安装到 Codex，再结合它进行测试。

输入相同提示词后，Codex 自动调用前端设计、头脑风暴等 Skill 完成设计定位与构思，并严格遵循 Codex 流程控制监控项目生成过程。

最终结果表明，同一模型在 Codex 中的表现远优于千问官网。但此处容易遇到一个问题：“stream disconnected before completion: <400> InternalError.Algo.InvalidParameter: The 'function.arguments' parameter of the code model must be in JSON format.”

当模型需要调用特定工具时，连接即中断。网络上的相关案例指出，原因在于“模型部署厂商对流式输出格式处理有误，不符合标准 OpenAI 协议，因此无法支持 API 调用，导致 400 错误。”询问 Codex 时，它同样归因于模型问题。

并非配置错误，而是 Qwen3.7 Max / 百炼 Responses API 对 Codex Agent 工具调用的稳定性不足。能对话不代表能稳定运行 Codex，执行长任务、修改代码、频繁读取文件时，切换回 OpenAI 官方模型更为稳妥。

因此遇到此问题时，只能等待 Qwen 团队修复，或尝试重新开启一个会话。

阿里云官方提供了针对不同错误码的解决方案指南。

去年我们还在谈论“模型即产品”——一个足够优秀的模型就等于一个好产品。如今看来，单靠模型远远不够。记忆、Harness、Agent 编排、验证、推理的可持续性……随着模型能力不断增强，这套架构也在持续演进。只有将这些要素都打磨到位，或许才能称得上“这是一个好模型”。

来源：互联网

上一篇 国产具身大模型Wall-OSS-0.5开源：零样本部署实测 下一篇 Runway MCP 服务器排行榜：2025年精选推荐

免责声明

本网站新闻资讯均来自公开渠道，力求准确但不保证绝对无误，内容观点仅代表作者本人，与本站无关。若涉及侵权，请联系我们处理。本站保留对声明的修改权，最终解释权归本站所有。

国产AI编程全球第二：五大Vibe Coding神器测评榜

摘要

获取 Qwen3.7 Max API 与免费额度

五大模型实战对比：DeepSeek、Claude、GPT、Gemini、Qwen 同场竞技

在 Codex 中集成 Qwen3.7 Max 的实战体验

相关文章推荐