其他资讯

中国团队实现万卡集群算力15%跃升，无GPU瓶颈突破实录

2026-05-22

阅读 0

热度 0

作者菜鸟AI编辑部

摘要

中美将网络视为AI基础设施竞争关键。中国团队提出ZCube新架构，在不增加GPU和修改代码的

GPU一块没加，代码一行没改，仅靠重构组网架构，就让推理集群多挤出15%的算力。这听起来像天方夜谭，但确实发生了。中美大模型厂商近期不约而同地押注同一个判断：网络，才是AI基础设施的下一个主战场。

“Vibe Coding”的火爆，几乎让所有人一夜之间进入了“说人话就写代码”的新纪元。随之而来的问题是，如何为这种海量、实时的推理需求打造更极致的算力支持？答案可能不在芯片本身，而在连接它们的网络上。

就在本月，OpenAI联合NVIDIA、AMD、Intel、Microsoft、Broadcom五大巨头，发布了MRC（Multipath Reliable Connection）网络协议，并已部署在其最大规模的GB200超算集群上。

视线转向国内，智谱联合驭驯网络与清华大学，在GLM-5.1线上生产集群中完成了新一代组网架构ZCube的规模化落地。结果令人惊讶：GPU一块没加，服务器一台没换，代码一行没改，推理吞吐直接提升了15%。

更夸张的是，交换机和光模块的硬件成本还砍掉了三分之一。集群规模越大，这个优势越明显。在万卡级别的集群中，仅网络硬件一项，就能省下2.1亿到6.4亿元。

提出并在真实生产环境中验证这项技术的，是中国团队。ZCube架构发表于网络领域顶级学术会议ACM SIGCOMM 2025，被评价为“significantly change the way we think about and understand networking”——显著改变了整个行业对网络的认知方式。

一月之间，国内外一个在协议层发力，一个在架构层动刀。殊途同归，指向同一个核心判断：网络，已经成为超大规模AI基础设施效率竞赛的关键变量。

ZCube：推翻二十年的“堆交换机”逻辑

过去几年，AI基础设施的军备竞赛似乎只有一个维度：堆GPU。更多、更快、更猛。

但当推理集群规模突破千卡、万卡，一个反直觉的现象开始浮现——GPU的利用率不升反降。原因很简单：大模型推理不是单兵作战，而是大规模的协同作战。

每处理一个用户请求，集群中的GPU都需要高频、大量地互相传递中间数据，尤其是KV Cache。随着Prefill（处理输入）与Decode（生成输出）分离部署成为主流，数据在GPU之间的流向变得高度动态且不对称——有的链路挤满数据，有的链路却空空如也。

智谱的线上实测数据给出了量化证据：在一个32卡规模的推理服务上做控制变量实验，仅把网络带宽从100Gbps提升到200Gbps，推理吞吐就提升了约19%，首Token响应时延下降了约22%。这个规律随着集群规模扩大，会越来越显著。可以说，GPU的性能天花板，很大程度上是被网络“锁住”的。

过去二十多年，全球数据中心普遍采用Fat-Tree / Clos架构组网。这套方案的核心思路非常朴素：多层交换机一层一层堆上去，规模不够就加层。在互联网流量时代，这套逻辑运行良好，在AI训练集群里也基本够用。

但大模型推理是一种全新的流量模式。在PD分离部署场景中，Prefill节点和Decode节点之间需要频繁传递KV Cache，不同请求的长度千变万化，数据流向毫无规律。传统Clos架构面对这种流量时，一个结构性的死xue暴露了出来：流量会被拓扑关系天然地推向同几台交换机和同几条链路，形成热点堆积、队列反压和链路拥塞。

这是路网设计本身的问题。ZCube的做法，简单说就是三个字：拆掉它。其设计的精妙之处在于，确保全网任意两张GPU之间，有且仅有一条最优路径。没有多路径选路的冲突，也就没有了“车流挤到同一个路口”的结构性隐患。拥塞不是被事后控制，而是从架构层面大幅降低了其产生的概率。

打个比方：传统Clos是给一座已经堵死的城市装更多红绿灯；ZCube则是重新规划了整张路网，让每辆车都有自己专属的最优路线——从源头上大幅减少了堵车的可能。

更值得关注的是网络直径。ZCube的网络直径仅为2跳，全网GPU经过两台交换机即可互达，介于一层组网（1跳，但规模受限）和传统二层组网（3跳，延迟高）之间，巧妙地兼顾了低延迟与高扩展性。

硬件不换，代码不改，吞吐多15%

理论再漂亮，终究要看真刀真枪的生产数据。智谱在运行GLM-5.1 Coding推理服务的千卡集群中，将原本部署的ROFT（Rail Optimized Fat-Tree）网络架构直接升级为ZCube。

这次改造并非简单的“换根网线”。ZCube取消了传统Clos的Spine层，原有的布线模式、IP编址策略、路由策略和交换机配置全部无法复用，需要从头设计。驭驯网络团队为此开发了ZCube控制器、机房布局设计工具和连线正确性检测程序等一整套自动化工具，才在极短时间内完成了大规模生产集群的改造。

控制变量极其干净：GPU型号不变、软件栈不变、业务代码一行不改，唯一的区别就是组网架构。结果如何？

GPU平均推理吞吐提升15%以上——同样的硬件，每秒能多服务15%的用户请求；TTFT P99（首Token尾延迟）下降40.6%——用户等待的“最坏情况”大幅改善；交换机与光模块硬件成本减少三分之一——花更少的钱，反而跑得更快。

在当前算力紧缺、推理需求持续暴增的背景下，同样一堆硬件凭空多挤出15%的产能，这哪里是“优化”，这简直是“存量资产的效率重估”。目前，该ZCube集群已在GLM-5.1 coding推理服务中稳定运行超过两周。

MRC vs ZCube：治病与防病的两条路径

回到开头提到的MRC。OpenAI联合五大芯片与云计算巨头发布的这套协议，本质上是一种多路径并发传输方案。MRC和ZCube的关系，可以用一个比喻说清楚。

MRC优化的是“交通规则”——车已经上路了，通过更聪明的调度让车流更均匀，遇到事故能瞬间绕行。它在协议层发力，解决的是“已经出现拥塞后怎么办”。

ZCube重新规划的是“路网本身”——从拓扑设计上降低拥塞产生的概率，让每辆车都有唯一最优路线，从源头减少拥塞出现的机会。它在架构层动刀，解决的是“为什么会出现拥塞”。

前者是“治病”，后者是“防病”。技术路线不同，但双方同时在这个月发力，传递的信号高度一致：算力军备竞赛的下半场，不再只是比谁的GPU多，而是比谁能让这些GPU真正高效地跑起来。

值得一提的是，MRC的发布还推动了另一个行业趋势：以太网正在加速替代InfiniBand成为AI集群的主流网络选择。分析机构Dell'Oro Group的数据显示，2025年以太网在AI后端网络中的销售额和出货量已经全面超越InfiniBand。

MRC作为开放协议通过OCP发布，NVIDIA、AMD、Broadcom等厂商的800Gb/s网卡均已原生支持。这意味着整个AI网络生态正在从封闭走向开放，从单一供应商走向多元竞争。

对于资本市场而言，这两大事件密集释放的信号同样值得关注：未来超大规模AI集群的组网采购逻辑将发生结构性变化——对高端交换机的需求将向“更少层级、更大端口密度”演进，对光模块的需求将向更高速率集中。800G光模块、高密度以太网交换机相关产业链，有望迎来新一轮需求释放。

ZCube的扩展能力：一层交换机，连接数万GPU

ZCube还有一个被低估的特性：扩展性。以当前主流配置计算（一层容量51.2T的交换机，128个400Gbps端口），ZCube仅用一层Leaf交换机就能构建连接16384块400Gbps网卡的完全连接网络。

如果使用更高容量的交换机，或者将ZCube网络划分为更多平面，可支持数万甚至数十万块GPU互联——而且仍然只需要一层交换机。规模越大，ZCube相比传统架构省下的交换机和光模块就越多，性能优势也越明显。这是一条规模越大、越划算的曲线。

从“堆算力”到“挖效率”

过去几年，大模型行业最大的共识是Scaling Law——堆更多数据、更多算力、更大参数，模型就会更强。这个逻辑催生了万卡集群的军备竞赛。

但在当下，一个新的共识正在浮现：与其无限堆叠GPU，不如让现有的GPU跑得更顺畅。ZCube的实践证明，仅仅通过网络架构层面的系统性创新，就能在不增加任何GPU的前提下，撬动15%的推理吞吐提升。随着推理规模继续向十万卡迈进，网络瓶颈只会随集群规模指数级加剧，而扁平化架构的优势也将同步放大。

更深层的变化在于：网络设计正在从“通用互联”走向“模型流量驱动的系统协同”。网络不再只是连接GPU的底层管道，而正在升级为提升Token生产效率、系统稳定性和成本效率的核心能力。

智谱表示，未来将继续面向更大规模推理与训练集群探索新型智算网络架构。OpenAI的MRC也在持续迭代，其规格已通过OCP开放，正在成为行业基础标准。一场关于AI基础设施底层架构的重构，正在全球范围内同步展开。

来源：互联网

上一篇 Anthropic三年450亿美元算力采购：SpaceX上市后马斯克投票权解析 下一篇 万里马后市机会分析：成交额1.23亿元释放何种信号？

免责声明

本网站新闻资讯均来自公开渠道，力求准确但不保证绝对无误，内容观点仅代表作者本人，与本站无关。若涉及侵权，请联系我们处理。本站保留对声明的修改权，最终解释权归本站所有。