AI推理网络革命：为什么万卡集群的瓶颈不在GPU，而在网线

被低估的瓶颈：万卡集群的“网线焦虑”

过去三年，大模型厂商的军备竞赛高度集中在GPU采购上。从H100到Blackwell，谁抢到更多显卡，谁似乎就能在AI竞赛中占据先机。但当集群规模从百卡、千卡迈向万卡，一个原本被视为“配角”的基础设施开始从幕后走向前台——网络通信。

为什么网络突然变得如此重要？答案藏在大模型推理的底层逻辑里。

每一次用户请求的处理，都需要GPU之间高频交换大量中间数据。以处理一个100万token的长文本为例，模型内部需要反复传递KV Cache（键值缓存），这些数据在万卡集群中可能需要在数百张GPU之间流转数十次。传统Clos架构的静态拓扑极易引发局部拥塞，形成“总带宽充裕、局部频繁阻塞”的结构性瓶颈。结果是：GPU在等待数据中空转，算力被严重浪费。

2026年5月，这个长期被低估的问题终于引起了行业领袖的重视。

ZCube：从“分层堆叠”到“扁平直连”

智谱AI联合驭驯网络与清华大学，在GLM-5.1生产集群中规模化落地了新一代网络架构ZCube。这项技术被国际顶会ACM SIGCOMM 2025评价为“显著改变整个行业对网络的认知方式”。

核心创新：推翻二十年陈规的Clos架构

传统数据中心采用的Clos分层组网逻辑统治行业二十余年。它像一座多层写字楼，数据从一楼到十楼需要经过层层电梯转发。问题是，当上万块GPU需要同时通信时，这种“电梯”极易成为堵点。

ZCube的解决方案是彻底扁平化——将整栋“写字楼”变成一个没有楼层分隔的巨大房间。通过“单轨+多轨”混合接入机制，ZCube确保全网任意两张GPU之间有且仅有一条唯一最优路径，从拓扑源头消除了多路径选路带来的不确定性。

实测数据：在沉默中爆发的效率

在GLM-5.1 coding千卡推理集群的生产验证中，团队保持GPU、软件栈、业务代码完全不变，仅将网络架构从传统ROFT替换为ZCube。结果令人瞩目：

表格

指标	提升幅度
推理吞吐	提升15%以上
首Token响应尾延迟（TTFT P99）	降低40.6%
硬件成本	节省33%

据测算，在万卡规模下，仅网络硬件一项即可节省投资约2.1亿至6.4亿元。这不是来自更贵的GPU，而是来自更聪明的基础架构。

MRC协议：在“交通规则”上做文章

与智谱从架构层重构“路网”不同，OpenAI选择了在协议层优化。其联合五大芯片巨头发布的多路径可靠连接（MRC）协议，是另一种解决网络瓶颈的思路。

技术原理：让数据包“拼车”出行

MRC对聚合以太网RDMA（RoCE）进行扩展，结合SRv6源路由技术，实现了数据包在数百条路径上的并发传输。与传统协议单行道式的传输不同，MRC将单次数据传输分散到所有可用路径，智能均衡负载，从根源减少拥塞。

这项技术的另一大亮点是微秒级故障切换。当某条链路出现故障时，MRC能在几微秒内通过硬件自动重路由流量，无需等待传统路由协议数秒的收敛时间。对于需要持续高负载运行的AI训练集群，这种韧性至关重要。

落地进展：已部署全球顶级超算

MRC已部署于OpenAI所有前沿模型训练集群，以及微软Fairwater、甲骨文OCI Abilene等超大规模AI工厂。OpenAI工业计算负责人Sachin Katti表示，在Blackwell架构中部署MRC“帮助我们避免许多典型的网络相关减速和中断”。

效率革命的深层逻辑

ZCube与MRC的同步亮相，绝非巧合。它指向一个清晰的行业拐点：AI基础设施的价值重心，正从“获取更多算力”向“释放更高系统效率”迁移。

成本压力倒逼创新

英伟达最新财报显示，AI推理市场增长远超预期。而推理对网络带宽和低延迟的要求，比训练更为苛刻。与此同时，GPU供应持续紧张、价格高企，单纯堆叠硬件的边际效益递减。

网络优化带来的效率提升是系统性的——它不要求新增昂贵GPU，而是通过架构与协议创新，让存量算力资产跑得更“满”、更“顺”。

推理时代的必然选择

大模型行业正在从“训练为王”进入“推理优先”时代。训练时，GPU可以相对独立地处理数据批次的梯度计算；但推理时，每个请求都需要快速、频繁地在GPU间传递中间结果，对网络的带宽和延迟提出了更高要求。

这也解释了为什么国内AI厂商开始密集发力网络优化。DeepSeek完成从英伟达CUDA到华为CANN框架的全栈重构，在昇腾950芯片上推理速度提升35倍、能耗降低40%；智谱的ZCube则在千卡集群中实现了40%以上的延迟降低。

全栈协同：下一代AI基础设施的较量

MRC与ZCube代表两种不同的优化路径——协议层与架构层。但它们的共同指向是：未来的AI超级集群，将是一个高度协同的有机体。

芯片提供算力，网络确保数据无阻塞流动，软件栈根据模型流量动态优化。谁能在全栈各层实现最优协同，谁就能在效率与成本的终极竞争中占据先机。

阿里云近期完成了“芯片-云-模型-推理”全栈Agent化升级，推出专门面向Agent的模型服务平台千问云。英伟达则宣布下一代Rubin架构将原生支持MRC协议，从硬件层面解决网络瓶颈。

“算力+网络+能源”的三维竞争

有趣的是，网络优化只是这场效率革命的一个切面。电力、冷却等配套设施的重要性同样日益凸显。当数据中心从百柜扩展到万柜，能源密度成为比算力密度更棘手的问题。

行业正在形成共识：AI基础设施的竞争，已从单维度的“GPU数量”扩展为“算力×网络×能源”的三维综合实力较量。

写在最后

回望过去三年的大模型竞赛，我们见证了太多关于参数规模、算力军备的故事。但当喧嚣归于理性，行业开始意识到：AI的终极竞争，不在于谁拥有更多的显卡，而在于谁能更高效地释放每一分算力的价值。

网络，这个曾隐于幕后的基石，如今正走向舞台中央。从智谱的ZCube到OpenAI的MRC，两条技术路径指向同一个方向——让AI基础设施从“粗放扩张”走向“精细运营”。

对于整个行业而言，这或许是一个更健康的信号。它意味着大模型竞赛正在从“烧钱买硬件”的原始阶段，进入比拼工程能力与系统效率的成熟期。而对于普通用户，这场静悄悄的效率革命，最终将转化为更快的响应速度、更稳定的服务质量和更低廉的使用成本。

毕竟，最好的技术，往往不是最强大的那个，而是最懂得“量入为出”的那个。

被低估的瓶颈：万卡集群的“网线焦虑”

ZCube：从“分层堆叠”到“扁平直连”

MRC协议：在“交通规则”上做文章

效率革命的深层逻辑

全栈协同：下一代AI基础设施的较量

写在最后

评论

发表回复 取消回复

更多文章

币安钱包新增功能对链上用户有哪些帮助

AI推理网络革命：为什么万卡集群的瓶颈不在GPU，而在网线

加密货币支付赛道为何重新受到资本关注

币安Launchpad项目还有暴富机会吗

发表回复取消回复