智谱GLM-5开源实测:高级程序员面临新挑战
摘要
智谱开源GLM-5旗舰模型,全球排名第四、开源第一。模型规模744B,在SWE-bench测试中得分77 8
2026年的AI进化速度,已经到了令人咋舌的地步。即便是整天泡在AI堆里的人,也难免有种追赶不上的无力感——每天一睁眼,世界就变了模样。
就在昨天深夜,智谱再次放出大招,正式开源了他们目前最强的旗舰模型:GLM-5。在全球权威的Artificial Analysis榜单上,GLM-5一举超越了Gemini,排名全球第四、开源第一!
这个进展其实并不意外。还记得GLM-4.7发布时,市场就有过预期:按照这个节奏,GLM-5很可能在春节前夕面世。果然如此。而且这次的版本号跳跃颇具深意——从4.7直接跨到5.0,意味着这不是一次小修小补,而是底座能力的实质性跃迁。
那么,GLM-5这次到底带来了哪些实质性的变化?
简单来说,之前各家模型都在卷所谓的"Vibe Coding"——一句话生成炫酷网页或游戏特效。但GLM-5选择了一条不同的路:它把大模型的能力从单纯的写代码,提升到了"构建系统"的层面。换句话说,它的重心不再是漂亮的页面,而是进化成了一个能承担复杂任务的系统架构师。这个方向被定义为"Agentic Engineering"——智能体工程能力。
从技术参数来看,模型规模从355B提升到了744B(激活参数40B),预训练数据从23T扩充到了28.5T。在SWE-bench-Verified这个公认的编程基准测试中,GLM-5拿下了77.8分,直接把Gemini 3 Pro甩在了身后,与目前最强的闭源模型Claude Opus 4.5相比也不遑多让。
目前,用户在z.ai上可以免费体验。
开源地址:
GitHub:github.com/zai-org/GLM…
Hugging Face:huggingface.co/zai-org/GLM…
ModelScope:modelscope.cn/models/Zhip…
有意思的是,就在几天前,X平台上突然冒出一个代号"Pony"的神秘模型,当时引发了各种猜测。事实证明,这个Pony就是GLM-5的测试版本——至于为什么叫Pony,大概是因为马年快到了吧。当时已经有用户通过OpenRouter将Pony接入Claude Code进行体验,反响相当热烈。
实际测试的效果令人印象深刻。
举一个具体的例子。曾经尝试让GLM-5完成一个一直想做、但因为懒一直没动手的任务——手头有多个AI会员账号(Gemini、ChatGPT、Kimi、智谱等),平时写文章查资料时,经常想听听多个AI的综合意见。但每次都得打开多个浏览器窗口,来回复制粘贴、切换查看结果,次数多了确实烦人。理想方案是做一个浏览器插件,能统一在一个窗口里同时向几个AI的网页端发送同一个问题,然后统一收回复。但这个任务的难点在于:每个AI网站的结构都不一样,还有各种保护机制,需要分析它们的DOM结构。
把这个复杂任务交给GLM-5后,它立刻展示了一个非常详尽的计划——足足633行。随后,它像真正的开发者一样,自动调用Playwright MCP工具,自己打开浏览器,去访问各个AI的网站,检查元素,分析输入框位置,识别发送按钮的类名,获取返回的文本流……整个过程完全自动,不需要用户写一行代码。最终,一个"一次提问、全网AI同时回答"的插件就这样诞生了。
另一个测试场景更具说服力。此前在开发数字人营销视频一键生成平台时,为了追求更好的体验重构了前端,结果导致前后端接口对不上,老逻辑在新前端上跑不通,Bug丛生。这次,在Claude Code开启plan mode后,把找Bug、修Bug的任务直接交给了GLM-5。它先输出了一份详细的修复计划,然后开始自动执行——过程中用到浏览器MCP来控制。
值得注意的是,GLM-5的执行速度并不算快。但问题不在于模型本身——从Token消耗速度看,一秒能窜到上千。关键在于任务足够复杂,模型需要不断自我反思、调用工具、运行测试,再加上依赖下载和命令执行的时间。整个修复任务持续了40多分钟。但换个角度看,这40分钟里,人可以做其他事情——刷视频、遛狗——而模型在持续不断地做最让人头疼的找Bug和重构工作。最终结果非常显著:一运行,问题基本都搞定了。
更令人放心的是它的修复质量。以前用别的AI改Bug,经常担心越改越多,拆东墙补西墙,需要用各种工程手段去约束——强调范围、写规则、一次只改一个bug、改完还要测试别的功能……流程很麻烦。但用GLM-5改Bug,体验完全不同:只需要描述现状,丢出报错日志,告知期望效果,它几乎都能一次修复成功,完全不影响其他功能。甚至在一次对话中,把整个流程中发现的四个不同Bug一股脑全扔给它,它也能条理清晰的一个个修好。
这种稳健感,让用户真正可以放心地把复杂的开发任务交给它。即便偶尔还有问题,在Claude Code里执行回滚命令重来即可。
最后
体验完GLM-5,一个判断越来越清晰:国产AI确实站起来了。
前两天,字节跳动的Seedance 2.0发布,证明了中国国产模型在视频生成领域已经达到世界第一水平,超越Sora2和Veo3.1。而智谱GLM-5的发布,则是在另一个硬核赛道——AI Coding上,交出了一份超预期的答卷。
过去常说,国产模型在逻辑推理、写代码方面与GPT、Claude Opus、Gemini还有差距。但GLM-5用实打实的表现表明,这个差距正在被抹平。它不是一个只能做Demo的玩具,而是一个真正能帮你干活、能构建系统、能解决长任务和复杂问题的生产力工具。
最关键的是,它是开源的。这意味着,每一个开发者、每一个企业,都能以更低的成本,拥有一个顶级的AI架构师。官方公告提到正在紧急扩容,而且重点在于——这次接入的是国产芯片的万卡集群。
从芯片到模型,从底层算力到上层应用,一套完全自主的、世界顶级的AI技术栈正在构建成型。2026年,注定是AI应用爆发的一年,也是更疯狂的一年。如果想体验这种拥有顶级AI架构师的感觉,不妨去试试GLM-5——前提是能抢到Max套餐。
来源:互联网
本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。