
原文中兴通讯 毛磊《超节点应用场景及技术演进》一、概览1.1 一句话大模型参数越堆越大单卡算力又撞上了制程墙于是业界开始把多块 GPU 用超高带宽互联捏成一台巨型服务器来用——这就是超节点。说白了它不是简单多插几张卡而是要让原本跨机器才能做的分布式并行TP/EP退化成机内并行把通信开销从毫秒级压到纳秒级。1.2 为什么是现在芯片制程、先进封装、散热、良率、成本都逼近工程极限了单点算力提升走不动了这是大背景。但更直接的原因是大模型训练对通信的依赖发生了质变。BERT 那会儿亿级参数数据并行配 All-Reduce 就够了单卡显存也装得下到 GPT/LLaMA 时代千亿级张量并行TP得把矩阵乘切到多卡上每一层前向反向都要通信再到 MoE 时代万亿级专家并行EP还得做 All-to-All通信模式更不规则。通信量跟计算量的比值一直在涨逼着硬件把机内通信做到接近片内通信的速度。超节点就是冲着这个来的。二、定义与技术特征2.1 四大共性特征业界还没有统一定义标准也在制定中但不同厂商的方案有几个共性大量 GPU 互联——至少 8 卡起步8 卡方案已经很成熟了统一内存地址空间——任一 GPU 能像访问本地 HBM 一样访问任意互联的 HBM超高带宽、超低时延互联——除了 PCIe/CXL还得有专门的 GPU 显存高速互联英伟达的 NVLink带宽从数百 GB/s 到数百 TB/s时延纳秒级原生可扩展性——协议层留好扩展位拓扑上支持一级、二级交换这四条其实是从下到上的四层规模基线 → 编程抽象 → 物理通道 → 协议预留。缺了哪层都不行没规模不叫超节点没快通道互联只是通但不快没统一地址空间程序员得手写cudaMemcpyPeer很痛苦没扩展预留以后扩规模要推倒重来。2.2 统一内存地址空间深挖拓展补充原文第二条特征说任一 GPU 可以像访问本地 HBM 一样访问任意互联的 HBM这句话背后的东西比字面看到的要多。为什么要统一地址空间传统多 GPU 编程里每块卡显存是独立岛屿同一个指针0x7f...在 GPU0 和 GPU1 上可能指完全不同的数据。想跨卡用数据得显式调cudaMemcpyPeer拷一份还得自己管谁在什么时候持有哪份数据又累又容易出地址混淆的 bug。统一地址空间要做的就是把分布式内存伪装成共享内存。UVACUDA 4.0统一寻址UVA 把主机内存和所有 GPU 显存映射到同一个 64 位虚拟地址空间的不同区域光看指针值就能判断它在哪个物理位置。这带来了一个关键能力GPU0 拿到的指向 GPU1 内存的指针在 GPU1 的页表里也有效于是可以做点对点P2P直接访问——如果硬件是 NVLink 或 PCIe 且开了cudaDeviceEnablePeerAccessGPU0 的 kernel 直接用 load/store 就能读写 GPU1 的 HBM。但 UVA 只让远程访问的指针变得合法它不管数据搬移也不管一致性。远程访问的延迟带宽还是比本地 HBM 差就算走 NVLink 也是数据频繁跨卡用的话性能会掉程序员还是得自己管数据驻留。UMCUDA 6加上自动迁移和一致性UM 用cudaMallocManaged分配在 UVA 之上加了一层完整的管理。分配出来的指针在 CPU 和所有 GPU 上都有效。当某个 GPU 第一次访问这块数据时如果数据不在本地会触发缺页异常UM 驱动自动把需要的页面从远端搬过来之后访问就是纯本地的了。在支持硬件一致性互连的系统里比如 NVLink 现代 GPU 的 ATS/PASIDUM 还可以不搬数据直接把远端 GPU 的物理页面映射到本地页表读写透过 NVLink 直连远端 HBM指令完全一样只是物理路径走了互联网络。这比整页拷贝省显存。一致性方面数据迁移时驱动会保证源端缓存回写失效、目标端看到最新版本在 kernel 启动边界和同步点保证所有处理器看到一致数据硬件 cache 一致性的互连甚至在缓存层直接相干不用显式 flush。最终效果是程序员只用普通指针和读写不用手动拷贝和同步。四层叠加像本地 HBM 一样访问任意互联 HBM这句话其实是四层东西叠在一起的结果最底下是 UVA让所有 GPU 的 HBM 都在同一张虚拟地址表上再上是高速互联NVLink/NVSwitch提供物理通道再上是 UM做缺页自动迁移/映射最上面是一致性协议兜底保证读到的是最新值打个比方传统多 GPU 编程像在不同城市间寄信得先确认地址再通过邮局抄内容。UVA 相当于给所有城市统一编了门牌号可以直接往门牌号寄信。UM 更进一步你对着自家信箱喊一句话邮政系统自动搬到收件人门口甚至让收件人直接在你纸片上写字而你感觉像在本地桌面写字。层级名称版本解决什么不解决什么寻址UVACUDA 4.0指针跨 CPU/GPU 合法化支撑 P2P不搬数据不保证一致管理UMCUDA 6.0缺页自动迁移/映射自动一致性性能仍取决于迁移策略和互联带宽合起来统一内存地址空间—全局虚拟地址表 自动数据流转 一致性视图—三、架构分类3.1 三类超节点按操作系统粒度等差异分三类类型规模互联SuperNode至少 16 卡内部全互联PCIe/CXLSuperPoD上百卡内部 Scale-Up 网络NVLinkSuperCluster更多多级 Scale-UpNVLink 二级3.2 特征对比SuperNodeSuperPoDSuperClusterPCIe/CXL 总线有有有HBM 高速总线节点内 GPUPoD 内所有 GPUCluster 内所有 GPU操作系统1 个多个多个K8S 集群—1 个1 个或多个三者的区别不在卡数多少在系统耦合粒度SuperNode 是一台机器1 个 OS最紧耦合SuperPoD 是一组机器1 个 K8S逻辑上还是一台大机器SuperCluster 已经像小型数据中心了跨 K8S。抽象层级越高越得靠软硬件协同来弥补物理距离。不同类型超节点架构四、价值场景4.1 训练超节点给 TP、EP 这些复杂并行提供硬件支撑缩短通信时间提升并行效率缩短训练周期。后面第六节会展开讲为什么 TP/EP 特别吃这个。4.2 推理DeepSeek、GLM 这些千亿级多模态模型推理时单卡显存不够、通信又是瓶颈。超节点的 Scale-Up 域能缩短响应时间、提升吞吐。特别是长上下文场景Agentic AI、长文本对话、复杂文档分析KV 缓存随上下文长度线性增长——100 万 Token 的 KV 缓存按 FP16 算可能几十 GB单卡放不下必须切多卡。这里有个实际意义传统多机推理里每台机器的 KV 互相隔离相同前缀的请求要重复算前缀 KV浪费很大。超节点里统一内存地址空间让不同 GPU 看到的 KV 物理页可能是同一份前缀缓存复用率能接近 100%。这就是为什么百万 Token 上下文在超节点上才变得真正可行。五、规模与性能权衡阿姆达尔定律在这儿照样起作用。Qwen2 235B 在 2000 卡集群上的实测显示增大超节点规模确实能提升性能主要受益于 MoE 算子优化但有边际效应——64 到 128 卡是甜点区超过 128 卡后增益就平了。甜点区出现在这个范围有物理原因。NVLink 全互联的广播域有上限比如 NVL72 最多 72 卡超过就得走二级交换延迟和带宽都会劣化。集体通信的算法效率也受限All-Reduce 的 Ring 算法通信量约 2 倍数据量、跟 GPU 数无关但单次同步延迟是 O(log n) 或 O(n)n 越大同步越慢。n 超过某个点后多出来那部分卡的算力就被同步开销吃掉了。所以超节点越大越好是个误区超节点内加超节点间的异构并行才有最优解。六、并行策略与通信原语6.1 为什么 TP/EP 特别需要超节点原文说超节点为 TP、EP 提供硬件支撑这句话值得展开。先看硬件指标以 H100 为例范围互联双向带宽时延超节点内NVLink 4.0 NVSwitch900 GB/s纳秒级超节点外InfiniBand / 以太网400 GB/s 或更低微秒级形成内通外慢的同心圆。张量并行TP把单层矩阵乘切到多卡上每次前向反向都要做 All-Reduce 或 All-Gather通信量和计算量在一个量级。带宽不够、延迟不够低的话TP 效率会急剧下降GPU 大把时间在等数据。专家并行EP在 MoE 里把不同专家放不同 GPU 上每个 token 要路由到对应专家涉及 All-to-All 通信模式复杂、瞬间通信量极大。只有超高带宽低延迟的网络才撑得住。提供硬件支撑具体指的就是 NVLink NVSwitch 全互联带宽比跨节点网络高几倍延迟微秒级适合 TP 这种同步严格的细粒度通信全互联拓扑让任意两卡满速直连、不像树形拓扑会拥塞。实际训练一般是这样分层的超节点内NVLink/NVSwitch → TP每层每步都要通信必须纳秒级 → EPAll-to-All全互联优势最大 超节点间InfiniBand / 以太网 → PP每个微批次才通信慢点能忍 → DP每 N 步同步梯度可以再慢点这里有个很自然的匹配原则通信密度越高的并行模式越要放在物理上最紧密的硬件上。TP/EP 每层每步都要通信必须 NVLinkPP 每个微批次才通信InfiniBand 够用DP 每 N 步梯度累积才同步以太网也能接受。所以原文那句超节点为 TP、EP 提供硬件支撑说得挺准——不是让一切都变快而是让最该快的部分真的快起来。6.2 三大集体通信原语All-Reduce / All-Gather / All-to-All 是支撑 DP/TP/EP 的原子操作搞清楚它们就搞清楚了超节点里数据怎么流动。假设 3 个 GPUAll-Reduce先归约再广播所有 GPU 贡献数据做归约求和、求最大等每个 GPU 都拿到相同的归约结果。GPU0 有 A、GPU1 有 B、GPU2 有 C做完 SUM 后每个 GPU 都有 ABC。输出大小等于输入大小Ring 算法通信量约 2 倍数据量。All-Gather只收集不归约每个 GPU 提供一块收集后每个 GPU 都拿到完整拼接。GPU0 有 A0、GPU1 有 A1、GPU2 有 A2做完后每个 GPU 都有 [A0, A1, A2]。输出是输入的 n 倍Ring 通信量约等于数据量。All-to-All全员转置式交换每个 GPU 向所有 GPU 发送不同的数据块同时接收别人发给自己的。GPU0 持有 [00,01,02]分别发给 0/1/2GPU1 持有 [10,11,12]GPU2 持有 [20,21,22]做完后 GPU0 收到 [00,10,20]依此类推。相当于一次转置。均匀切分下每个 GPU 收发总量等于输入量通信量约等于数据量但对网络拓扑极度敏感——NVSwitch 全互联下可以一步完成优势最明显。三者对比All-ReduceAll-GatherAll-to-All语义归约广播收集拼接转置式交换单 GPU 输出 输入输入的 n 倍 输入均匀切分数据关系大家拿到相同结果大家拿到相同全量各拿不同的子集通信量(Ring)≈ 2×数据量≈ 数据量≈ 数据量主要场景DP 梯度平均、TP 反向TP 正向收集权重/激活EP/MoE token 路由对拓扑敏感度较高较高极高在并行策略中的角色TP 正向权重按列切分输入激活做 All-Gather 让每个 GPU 有完整输入TP 反向各 GPU 持有部分梯度做 All-Reduce 求和拿到完整输入梯度DP各 GPU 算完梯度做 All-Reduce (SUM) 再求平均EP/MoEtoken 被路由器分配到不同专家所在的 GPU每个 GPU 要把自己 token 里属于远端专家的部分发出去——就是 All-to-All 的转置。没有 All-to-AllMoE 的动态路由没法高效做。这也正好解释了为什么 All-to-All 对全互联那么敏感NVSwitch 让它几乎无阻塞地完成普通网络会拥塞。团队类比的话All-Reduce 是大家各自算一个数然后汇总成同一个总数发回每人达成共识All-Gather 是大家把碎片拼成同一张完整拼图人手一份All-to-All 是每个人按需把不同文件投给不同同事、同时收别人投给自己的重新洗牌。七、演进与产业实践7.1 国产超节点演进的三个维度产品架构两条路线。一是单柜极致密度英伟达 NVL576 那种涉及 800V 高压直流、全液冷、中置正交背板等优势是单卡算力领先、能匹配模型演进但国产 AI 芯片有代际差距、先进工艺受限短期追不上。二是多柜互联扩展用成熟工艺把高带宽域从以机柜为单元扩到千柜级。国产现阶段走的是第二条——不是不想做 NVL576是单卡和工艺有差距硬追追不上不如先把扩展性做透。比较务实。物理连接趋势是从电互联往光电融合走。电互联低成本、高可靠、低时延单柜内还是首选但 Scale-Up 域扩大、跨机柜互联时光互联LPO/NPO/CPO优势就出来了突破距离限制、更高速、避免电互联干扰。几个光互联技术的区别LPO线性可插拔去掉 DSP 降功耗和时延但距离受限NPO近封装把光引擎放在交换芯片封装附近距离比 LPO 更短CPO共封装光引擎跟交换 ASIC 共同封装距离最短密度最高但封装工艺最难。预判是国际 CPO 领跑、国内 NPO 优先落地。国产选 NPO 是因为它在性能和工艺难度上折中得比较好能拿到光互联的好处又不至于被最难的封装卡住。系统生态重点是开放解耦和软硬协同。开放解耦指超节点内部计算节点与交换节点解耦、CPU 和 GPU 资源解耦软硬协同指构建统一的互联协议规避私有封闭技术带来的供应链和成本风险。为什么要开放封闭的私有协议像英伟达 NVLinkNVSwitch有两个问题单一供应商出问题全盘受影响其他厂商的 GPU/CPU/加速器也接不进来。国产选开放路线是用生态开放换供应链安全和长期可扩展性后发者这么选是合理的。7.2 中兴的做法OEX 架构中兴 Nebula 超节点提出了 OEXOrthogonal Electrical eXchange正交无背板互联交换架构。核心是在计算节点和交换节点之间做垂直交叉的物理连接同时干掉传统线缆托盘Cable Tray消除信号损耗和可靠性风险。传统机柜式 GPU 服务器背板有个根本痛点信号在背板上要经过多次连接器跳转板→连接器→背板→连接器→板每跳一次都有衰减和反射。OEX 的做法是计算节点和交换节点像两块板十字交叉摆放正交连接器直接对接信号一跳到底没有绕线物理上消除了 Cable Tray 这个可靠性薄弱环节。用结构创新换信号完整性。OEX正交无背板互联交换架构细节包括计算节点板状CPU/GPU x8、HBM x16、正交连接器、交换节点核心 Scale-Up 交换芯片。三个创新方向方向内容OEX 架构正交连接器单级交换拓扑计算与交换节点垂直交叉互连摆脱线缆束缚信号完整性/可靠性/可维护性更好Matrix 集群扩展Nebula X32 单体→ Matrix X256/800 集群Nebula X128 单体→ Matrix X8192/16384 超大规模集群开放生态硬件开放 OEX 机械与电气接口规范软件打造 Olink 开放高速互联协议底层兼容以太网物理层和事务层创新满足 Scale-Up 和 Scale-Out 双重需求现状和展望摩尔定律趋缓的背景下超节点靠架构创新、极致互联和软件优化持续突破算力瓶颈推动计算体系从芯片级往系统级演进未来可能成为 AI 基础设施的核心底座单元。国产超节点的机会窗口在于单卡算力短期追不上英伟达但系统级集成开放生态场景化优化是另一条路。中兴 OEX 就是用系统级工程能力弥补单卡差距的路子。八、速查与总结8.1 要点速查主题内容超节点最小规模≥ 8 卡8 卡方案已成熟SuperNode 门槛至少 16 卡SuperPoD上百卡互联带宽数百 GB/s ~ 数百 TB/s纳秒级性能甜点区64–128 卡Qwen2 235B2000 卡集群国际标杆NVL72 → NVL576800V 高压直流、全液冷、中置正交背板中兴产品线Nebula X32/X128单体→ Matrix X256/800/X8192/16384集群中兴架构OEX正交无背板互联交换中兴协议Olink兼容以太网推理KV 缓存共享复用支撑 10 万–100 万 Token 上下文带宽对比NVLink 4.0 双向 900 GB/sInfiniBand 约 400 GB/s软件抽象UVACUDA 4.0 UMCUDA 6.0通信原语All-Reduce / All-Gather / All-to-All8.2 整体脉络应用层训练/推理 ├── 并行策略DP / PP / TP / EP │ └── 通信原语All-Reduce / All-Gather / All-to-All │ │ 通信密度匹配物理距离 │ ├── 硬件底座 │ ├── 大量 GPU8 卡起步 │ ├── NVLink/NVSwitch 超高带宽低时延 │ └── 形态单柜 → 多柜 → 集群 │ ├── 编程抽象 │ ├── UVA 统一寻址 │ └── UM 自动迁移一致性 │ └── 演进趋势 ├── 架构单柜极致密度 vs 多柜扩展 ├── 连接电 → 光CPO/NPO/LPO └── 生态开放解耦 软硬协同几个值得记住的判断超节点不是更多卡的服务器是分布式内存的紧耦合化——让跨机并行变成机内并行把通信开销压到极致。统一内存地址空间是软件抽象超节点是物理底座两者得配合。没 UM/UVA 代码难写没 NVLink/NVSwitch 性能出不来。通信密度匹配物理距离TP/EP 每层每步通信放 NVLink 上PP 每个微批次通信放 IB 上DP 每 N 步同步放以太网上。国产走系统级创新开放生态路线OEX 是用结构创新换信号完整性Olink 是用开放换供应链安全。超节点不是越大越好64–128 卡是甜点超了之后同步开销吃掉算力增益。All-to-All 对全互联最敏感这就是超节点对 MoE 训练关键的根因。