菜鸟AI - 让提示词生成更简单! 全站导航 全站导航
AI工具安装 新手教程 进阶教程 辅助资源 AI提示词 热点资讯 技术资讯 产业资讯 内容生成 模型技术 AI信息库

已有账号?

首页 > AI资讯新闻 > 国产AI编程全球第二:五大Vibe Coding神器测评榜
产业资讯

国产AI编程全球第二:五大Vibe Coding神器测评榜

2026-05-28
阅读 0
热度 0
作者 菜鸟AI编辑部
摘要

摘要

阿里旗舰模型Qwen3 7Max在编程竞技榜上超越GPT-5 5等多款模型,位列全球第二。实测显示其在

超越 GPT-5.5、Gemini 3.5 Flash、DeepSeek V4 Pro,阿里最新旗舰模型 Qwen3.7 Max 在编程竞赛排行榜上斩获亚军,仅次于 Claude Opus 4.7。

5月26日排行榜快照

除了真实场景的用户偏好,在传统大模型固定评测榜单——如终端能力 Terminal Bench、编程能力 SWE Bench——上,Qwen3.7 Max 的表现同样位居国产模型之首。

大模型发展四年,排行榜更迭已司空见惯,但这款超越 GPT 5.5 的 Qwen 模型,真实实力究竟怎样?我们决定亲自上手实测。

目前最热门的 Coding Agent 方案,通常是 GPT 5.5 配合 Codex。如果将 Codex 默认模型替换为 Qwen3.7 Max,在日常开发任务中能否超越 GPT 5.5 的体验?

获取 Qwen3.7 Max API 与免费额度

正值各家平台推广 Token 优惠,阿里云同样提供 100 万 Token 免费额度,可通过阿里云百炼平台直接领取使用。

Qwen3.7 Max 当前限时五折定价:输入 6 元/百万 tokens,输出 18 元/百万 tokens。新用户还可通过五折充值节省计划,仅需 10 元/月即可获得 20 元 Token 额度,而标准 Token Plan 为 198 元/月。

根据大模型聚合平台 OpenRouter 数据,Qwen3.7 Max 的定价处于中等水平。虽然比 DeepSeek 的超低价高出不少,但相比 Opus 4.7 和 GPT 5.5,依然具备明显价格优势。

我直接选择了「入门首选」档位(全模型通用抵扣 20 元)。需注意:五折优惠仅限一个套餐,购买 10 元档后,将无法再享受 50、250 元档位的半价计划。

五大模型实战对比:DeepSeek、Claude、GPT、Gemini、Qwen 同场竞技

获取 API Key 与百万免费 Token 后,我们先后在阿里云百炼平台和千问官网,使用 Qwen3.7 Max 执行了一系列典型前端网页开发任务。

首先进行直观的物理模拟测试:仅用一句简单提示词——“用 HTML+CSS+JS 做一个模拟液体在容器里晃动的动画,拖动容器可以改变倾斜角度。”

Qwen3.7 Max 在千问官网生成的液体模拟效果

Qwen3.7 Max 顺利完成模拟挑战,并额外实现了颜色自定义、摇晃幅度调节、液体量控制等扩展功能。

DeepSeek 的输出相对简洁,但未出现明显错误。

GPT-5.5 生成的液体表现有些怪异——虽能根据角度改变流向,但波浪效果显得突兀。

Gemini 3.5 Flash 生成的网页存在小 Bug:瓶子始终隐藏在控制面板后方,需要手动拖拽才能显示。但其自定义选项极为丰富:瓶子类型、液体颜色、各类参数均可随心调节。

Claude Opus 4.7 的瓶子模型过于简单,剧烈晃动时液体模拟效果类似音波跳动。

接下来尝试生成一款小游戏。尽管游戏测试已是去年 Vibe Coding 的常规项目,但本次要求 AI 制作六宫格 2048 游戏——提示词:“做一个可以玩的 2048,但格子是六边形的。”

Qwen3.7 Max 生成的页面视觉效果不错,参考来源 10 条信息中多数来自 CSDN 的 2048 教程。游戏可玩,但偶尔出现同一方向相同数字未能正确合并的问题。

DeepSeek V4 表现与上一轮类似,但六边形布局下键盘控制仅支持 WASD 四个方向。

本轮表现最佳的是 Claude Opus 4.7——它精准理解了蜂巢格子的移动逻辑,操作体验清晰流畅。

GPT 5.5 借助 Codex 能力,生成游戏后自动打开浏览器预览、抓取控制台日志修复代码,最终网页质量优秀。但鼠标移动方向监测仍不及 Opus 4.7 精准。

Gemini 3.5 Flash 一如既往地提供了大量附加功能:赛博、暗金、马卡三种背景主题,并内置“高品质合音器”。

游戏全程配有原生 Web Audio 生成的复古 8-bit 太空音效(合并、滑动、过关、死亡),沉浸感瞬间拉满。

再测试一个普通网页设计任务:要求制作一个地铁博物馆网站,提示词仅一句——“设计一个名为地铁博物馆的主题网站,要求沉浸感强。”

预期模型能尽可能展示不同城市的地铁信息、全球地铁 Logo,整体风格偏向艺术性,具备独特设计感与丰富特效。

先看 Qwen3.7 Max:坦白说评价有些困难——文字竖排确实模仿地铁列车风格,但整体布局显得杂乱。

Gemini 继续保持了丰富度,再次加入音效,并制作了地铁文创功能——定制纪念票根生成器,输入姓名、选择车站,即可实时生成一张复古风地铁纪念乘车票。

上下滑动浏览更多内容|Gemini 3.5 Flash 在官网通过 Canvas 选项生成

DeepSeek 选用的项目与 Gemini 类似——同样包含票务纪念与驾驶体验,但最终交付成果中并未实际实现这些功能。

GPT 5.5 生成的网页风格可取,虽带有明显模板痕迹,但整体设计水准在线,可惜信息量不足——模型似乎未能理解地铁博物馆应展示地铁相关知识。

继续使用此前提示词要求模型制作浏览器操作系统——“用 HTML 构建一个完整的浏览器操作系统。”

DeepSeek V4 输出简洁,Qwen3.7 Max 同样简单,但这次额外附带了一张不错的桌面风景图片。

本次测试中真正令人满意的是 Gemini 3.5 Flash 和 GPT 5.5。与 Gemini 类似,GPT 5.5 也对整个操作系统进行了详尽设计,具备独特风格。

在 Codex 中集成 Qwen3.7 Max 的实战体验

一轮测试显示,Qwen3.7 Max 在对话式生成小型网页项目时,虽未必每项都超越 Gemini 或 GPT 5.5,但相比前代已有显著进步。

千问官网展示了若干代码案例,如 3D 地球、食物链排序、数据可视化、个人博客等,但这些项目的提示词较长,并非我们测试时使用的简单一句话。

输入提示词后,千问界面提供了“优化指令”选项。

将 3D 地球项目的提示词分别交给 DeepSeek V4、Gemini 3.5 Flash,生成效果与 Qwen3.7 Max 几乎相同。

这意味着,当前阶段提示词的质量依然是决定 Qwen3.7 Max 能力释放的关键。降低用户优化提示词负担的有效途径是接入 Agent 产品,借助 Skills 与 Agent 协作等能力,充分释放模型潜能。

按照阿里云官方教程,我将 Qwen3.7 Max 成功接入 Codex 终端助手。

但此处容易遇到 Bug——Codex 持续提示“CODEX Missing environment variable”。按官方教程,修改 ~/.codex/config.toml 配置文件后,还需修改系统环境变量。即模型的 API KEY 需保存在系统环境变量(需根据 Shell 类型编辑对应的 .bash_profile 或 .zshrc)中,而非 Codex 的 config.toml 文件。

修改完成后,终端输入 Codex 即可看到 Qwen3.7 Max,重新启动 Codex App,主界面模型将从 GPT-5.5 自动切换至自定义的 Custom。

采用相同方法,可将 DeepSeek、MiniMax、Kimi、智谱等模型逐一接入 Codex。

此前 GitHub 上一个前端 Skill 获得超 2 万 Star,核心功能是让 AI 生成更美观的前端界面,这与 Qwen3.7 Max 夺得第二名的榜单任务性质类似。我们先将该 Skill 安装到 Codex,再结合它进行测试。

输入相同提示词后,Codex 自动调用前端设计、头脑风暴等 Skill 完成设计定位与构思,并严格遵循 Codex 流程控制监控项目生成过程。

最终结果表明,同一模型在 Codex 中的表现远优于千问官网。但此处容易遇到一个问题:“stream disconnected before completion: <400> InternalError.Algo.InvalidParameter: The 'function.arguments' parameter of the code model must be in JSON format.”

当模型需要调用特定工具时,连接即中断。网络上的相关案例指出,原因在于“模型部署厂商对流式输出格式处理有误,不符合标准 OpenAI 协议,因此无法支持 API 调用,导致 400 错误。”询问 Codex 时,它同样归因于模型问题。

并非配置错误,而是 Qwen3.7 Max / 百炼 Responses API 对 Codex Agent 工具调用的稳定性不足。能对话不代表能稳定运行 Codex,执行长任务、修改代码、频繁读取文件时,切换回 OpenAI 官方模型更为稳妥。

因此遇到此问题时,只能等待 Qwen 团队修复,或尝试重新开启一个会话。

阿里云官方提供了针对不同错误码的解决方案指南。

去年我们还在谈论“模型即产品”——一个足够优秀的模型就等于一个好产品。如今看来,单靠模型远远不够。记忆、Harness、Agent 编排、验证、推理的可持续性……随着模型能力不断增强,这套架构也在持续演进。只有将这些要素都打磨到位,或许才能称得上“这是一个好模型”。

来源:互联网

免责声明

本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。

同类文章推荐

相关文章推荐

更多