AI推理网络革命:为什么万卡集群的瓶颈不在GPU,而在网线

AI万卡集群网络革命封面 算力效率

被低估的瓶颈:万卡集群的“网线焦虑”

过去三年,大模型厂商的军备竞赛高度集中在GPU采购上。从H100到Blackwell,谁抢到更多显卡,谁似乎就能在AI竞赛中占据先机。但当集群规模从百卡、千卡迈向万卡,一个原本被视为“配角”的基础设施开始从幕后走向前台——网络通信。

为什么网络突然变得如此重要?答案藏在大模型推理的底层逻辑里。

每一次用户请求的处理,都需要GPU之间高频交换大量中间数据。以处理一个100万token的长文本为例,模型内部需要反复传递KV Cache(键值缓存),这些数据在万卡集群中可能需要在数百张GPU之间流转数十次。传统Clos架构的静态拓扑极易引发局部拥塞,形成“总带宽充裕、局部频繁阻塞”的结构性瓶颈。结果是:GPU在等待数据中空转,算力被严重浪费。

2026年5月,这个长期被低估的问题终于引起了行业领袖的重视。

ZCube:从“分层堆叠”到“扁平直连”

智谱AI联合驭驯网络与清华大学,在GLM-5.1生产集群中规模化落地了新一代网络架构ZCube。这项技术被国际顶会ACM SIGCOMM 2025评价为“显著改变整个行业对网络的认知方式”。

核心创新:推翻二十年陈规的Clos架构

传统数据中心采用的Clos分层组网逻辑统治行业二十余年。它像一座多层写字楼,数据从一楼到十楼需要经过层层电梯转发。问题是,当上万块GPU需要同时通信时,这种“电梯”极易成为堵点。

ZCube的解决方案是彻底扁平化——将整栋“写字楼”变成一个没有楼层分隔的巨大房间。通过“单轨+多轨”混合接入机制,ZCube确保全网任意两张GPU之间有且仅有一条唯一最优路径,从拓扑源头消除了多路径选路带来的不确定性。

实测数据:在沉默中爆发的效率

在GLM-5.1 coding千卡推理集群的生产验证中,团队保持GPU、软件栈、业务代码完全不变,仅将网络架构从传统ROFT替换为ZCube。结果令人瞩目:

表格

指标提升幅度
推理吞吐提升15%以上
首Token响应尾延迟(TTFT P99)降低40.6%
硬件成本节省33%

据测算,在万卡规模下,仅网络硬件一项即可节省投资约2.1亿至6.4亿元。这不是来自更贵的GPU,而是来自更聪明的基础架构。

MRC协议:在“交通规则”上做文章

与智谱从架构层重构“路网”不同,OpenAI选择了在协议层优化。其联合五大芯片巨头发布的多路径可靠连接(MRC)协议,是另一种解决网络瓶颈的思路。

技术原理:让数据包“拼车”出行

MRC对聚合以太网RDMA(RoCE)进行扩展,结合SRv6源路由技术,实现了数据包在数百条路径上的并发传输。与传统协议单行道式的传输不同,MRC将单次数据传输分散到所有可用路径,智能均衡负载,从根源减少拥塞。

这项技术的另一大亮点是微秒级故障切换。当某条链路出现故障时,MRC能在几微秒内通过硬件自动重路由流量,无需等待传统路由协议数秒的收敛时间。对于需要持续高负载运行的AI训练集群,这种韧性至关重要。

落地进展:已部署全球顶级超算

MRC已部署于OpenAI所有前沿模型训练集群,以及微软Fairwater、甲骨文OCI Abilene等超大规模AI工厂。OpenAI工业计算负责人Sachin Katti表示,在Blackwell架构中部署MRC“帮助我们避免许多典型的网络相关减速和中断”。

ZCube与MRC技术插图 网络优化

效率革命的深层逻辑

ZCube与MRC的同步亮相,绝非巧合。它指向一个清晰的行业拐点:AI基础设施的价值重心,正从“获取更多算力”向“释放更高系统效率”迁移。

成本压力倒逼创新

英伟达最新财报显示,AI推理市场增长远超预期。而推理对网络带宽和低延迟的要求,比训练更为苛刻。与此同时,GPU供应持续紧张、价格高企,单纯堆叠硬件的边际效益递减。

网络优化带来的效率提升是系统性的——它不要求新增昂贵GPU,而是通过架构与协议创新,让存量算力资产跑得更“满”、更“顺”。

推理时代的必然选择

大模型行业正在从“训练为王”进入“推理优先”时代。训练时,GPU可以相对独立地处理数据批次的梯度计算;但推理时,每个请求都需要快速、频繁地在GPU间传递中间结果,对网络的带宽和延迟提出了更高要求。

这也解释了为什么国内AI厂商开始密集发力网络优化。DeepSeek完成从英伟达CUDA到华为CANN框架的全栈重构,在昇腾950芯片上推理速度提升35倍、能耗降低40%;智谱的ZCube则在千卡集群中实现了40%以上的延迟降低。

全栈协同:下一代AI基础设施的较量

MRC与ZCube代表两种不同的优化路径——协议层与架构层。但它们的共同指向是:未来的AI超级集群,将是一个高度协同的有机体。

芯片提供算力,网络确保数据无阻塞流动,软件栈根据模型流量动态优化。谁能在全栈各层实现最优协同,谁就能在效率与成本的终极竞争中占据先机。

阿里云近期完成了“芯片-云-模型-推理”全栈Agent化升级,推出专门面向Agent的模型服务平台千问云。英伟达则宣布下一代Rubin架构将原生支持MRC协议,从硬件层面解决网络瓶颈。

“算力+网络+能源”的三维竞争

有趣的是,网络优化只是这场效率革命的一个切面。电力、冷却等配套设施的重要性同样日益凸显。当数据中心从百柜扩展到万柜,能源密度成为比算力密度更棘手的问题。

行业正在形成共识:AI基础设施的竞争,已从单维度的“GPU数量”扩展为“算力×网络×能源”的三维综合实力较量。

写在最后

回望过去三年的大模型竞赛,我们见证了太多关于参数规模、算力军备的故事。但当喧嚣归于理性,行业开始意识到:AI的终极竞争,不在于谁拥有更多的显卡,而在于谁能更高效地释放每一分算力的价值。

网络,这个曾隐于幕后的基石,如今正走向舞台中央。从智谱的ZCube到OpenAI的MRC,两条技术路径指向同一个方向——让AI基础设施从“粗放扩张”走向“精细运营”。

对于整个行业而言,这或许是一个更健康的信号。它意味着大模型竞赛正在从“烧钱买硬件”的原始阶段,进入比拼工程能力与系统效率的成熟期。而对于普通用户,这场静悄悄的效率革命,最终将转化为更快的响应速度、更稳定的服务质量和更低廉的使用成本。

毕竟,最好的技术,往往不是最强大的那个,而是最懂得“量入为出”的那个。

评论

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注