NVIDIA Blackwell系列GPU(B200/B300/GB200/GB300)集群互联设计参考
- AIGC
- 2025-12-04
- 673热度
- 0评论
引言:Blackwell集群互联的技术价值
随着AI大模型训练对算力规模需求的指数级增长,GPU集群的高效互联成为制约整体性能发挥的关键环节。NVIDIA近期正式对外公布了GB300 SuperPod集群的参考架构规范,结合此前推出的B200、B300及GB200相关技术标准,形成了完整的Blackwell系列集群解决方案。本文将聚焦于该系列的计算网络互联(后端网络)技术细节,存储网络、带内(In-Band)网络及带外(Out-of-Band)网络等辅助架构因原理相通,暂不展开详述。
第一章:Blackwell系列GPU核心规格解析
1.1 产品矩阵总览
作为NVIDIA当前算力输出的核心产品线,B200、B300、GB200与GB300四款GPU在硬件配置上形成梯度差异,这些差异直接决定了其集群互联的技术路径。核心区别集中体现在五个维度:显存容量从192GB提升至288GB;配套网卡速率从400Gbps(CX-7系列)升级至800Gbps(CX-8系列);TPU/SM核心数量从74/148组增至80/160组;FP4稠密算力呈现1:1.5的性能差距;NVLink互联域规模则从8 GPU扩展至72 GPU。
1.2 各型号核心特性详解
1.2.1 Blackwell B200:入门级高性能之选
B200的核心创新在于采用双Die封装设计,两个计算Die通过NV-HBI高速互联通道实现10TB/s的交互带宽。需要特别说明的是,其标称算力基于完整GPU规格,实际部署中因仅启用80个TPC中的74个(含频率影响),稀疏FP8算力为9P,对应稠密FP8算力4.5P。显存配置方面,8组24GB HBM3e显存颗粒构成192GB总容量,后端网络适配400Gbps速率的CX-7网卡。
1.2.2 Blackwell B300:算力与带宽升级版本
B300在B200基础上实现精准升级:将24GB HBM3e显存颗粒替换为36GB版本,使总显存提升至288GB;FP4稠密算力从9P提升至13.5P,其算力倍增逻辑为——FP4稠密算力是FP8稠密算力的3倍,而FP4稀疏算力仍保持为FP8稀疏算力的2倍;网络接口升级至CX-8 800Gbps网卡;功耗从1000W增至1100W;Attention加速能力(SFU EX2)从B200的5T Exponentials/s提升至10.7T Exponentials/s,较前代H100实现2.4倍提升。
1.2.3 Blackwell GB200/GB300:CPU-GPU融合架构
GB系列与B系列的核心差异在于集成度——每个GB200/GB300单元包含2个GPU和1个Grace CPU,形成"2+1"融合计算节点。由于GPU启用了完整的80个TPC核心,其算力较同代B系列提升约8%(74/80比例关系,含频率优化)。具体性能对比为:B200/B300的FP16稠密算力2.25P,GB200/GB300则达2.5P×2=4.5P;B200的9P FP4算力,在GB200中升级为10P×2=20P;B300的13.5P FP4算力,对应GB300的15P×2=30P。功耗方面,GB200单单元功耗2700W,GB300则暂未公布具体数值。
1.2.4 OpenAI定制版GB200:专属网络优化方案
据SemiAnalysis行业报告显示,OpenAI与NVIDIA联合定制了GB200的网络适配方案,成为目前唯一实现GB200配800Gbps网络的案例。该方案通过每个计算托盘配置8个400GbE OSFP接口,实现单GPU 800GbE的传输能力(每个CX-8网卡对应2个400GbE接口)。技术路径上,定制版GB200通过PCIe Gen6直接连接CX-8网卡,而标准版GB200需经C2C通道连接Grace CPU后,再通过PCIe Gen5连接CX-7网卡,网络延迟与带宽均存在显著差异。
第二章:节点级与机柜级互联方案(DGX & NVL72)
2.1 DGX系列:8GPU节点级架构
B200与B300通常以8个GPU为单元组成标准计算节点,即NVIDIA DGX(或HGX)系列服务器。其互联核心特征包括:8个GPU通过NVLink v5与NVSwitch实现全互联,确保节点内无阻塞通信;每个GPU独立配备一张网卡(B200配CX-7,B300配CX-8);支持风冷与液冷两种散热方案,适配不同机房环境。
对比前代产品,DGX B200/B300在核心指标上实现跨越式提升:DGX B200的1.54TB总显存(8×192GB)是DGX H100(1.1TB)的1.4倍,DGX B300的2.3TB(8×288GB)更是达到2.1倍;FP4稠密算力方面,DGX B200为72P,DGX B300达108P,较DGX H100的36P分别提升2倍和3倍;网络接口从DGX H100的2×400Gb/s升级至DGX B300的2×800Gb/s,IB网络则实现8×400Gb/s到8×800Gb/s的翻倍。
2.2 NVL72系列:72GPU机柜级架构
GB200/GB300采用更高密度的整机柜部署方案,即NVL72架构,单个机柜可容纳72个GPU,核心配置包括:18个计算托盘(每个托盘含2个GB单元,即2个CPU+4个GPU);9个NVSwitch托盘(每个托盘含2个NVSwitch,单个NVSwitch提供72个端口);整机柜功耗达120kW,必须采用液冷散热;网络接口方面,GB200 NVL72配备72个400Gb/s CX-7端口,GB300 NVL72则升级为72个800Gb/s CX-8端口。
NVL72架构的互联关键在于NVSwitch的全互联设计——单个NVSwitch拥有72个NVLink端口,18个NVSwitch通过多级互联实现72个GPU的无死角通信。如下图
以GB300 NVL72为例,其576TB/s的总显存带宽(72×8TB/s)、130TB/s的NVLink总带宽(72×1.8TB/s)及3.6TB/s的后端网络带宽(72×800Gb/s),为超大规模模型训练提供了坚实的硬件基础。
第三章:集群互联核心组件(网卡与交换机)
3.1 网卡:从CX-7到CX-9的速率跃迁
3.1.1 CX-8 SuperNIC:PCIe Gen6的先行者
CX-8 SuperNIC的核心突破是集成PCIe Switch模块,原生支持PCIe Gen6接口,目前已成为B300服务器的标准配置。
其端口模式具备灵活适配性:如下图所示InfiniBand模式下支持1个800Gb/s端口或2个400Gb/s端口;以太网模式下暂不支持单端口800Gb/s,仅可配置为2个400Gb/s端口。该网卡通过NCCL、DOCA等软件栈优化,实现GPU、CPU、SSD与网络之间的QoS调度,同时节省NVLink C2C带宽资源。
3.1.2 CX-9 SuperNIC:以太网800G的解决方案
作为下一代网卡产品,CX-9重点解决了CX-8在以太网场景的速率限制,实现InfiniBand与以太网双协议下的800Gb/s单端口速率支持,总带宽可达1.6Tb/s。其与Spectrum-XT以太网交换机、Quantum-X800 IB交换机的协同设计,可满足百万参数级AI模型训练、分布式推理等场景的网络需求,同时通过功耗优化支撑绿色数据中心建设。
3.2 交换机:高密端口支撑集群扩展
3.2.1 前代经典:Quantum-2 QM9700 IB交换机
QM9700作为上一代IB交换机主力产品,采用1U机架设计,提供64个400Gb/s端口,双向聚合带宽达51.2Tb/s,包转发率超66.5亿pps。其支持RDMA、自适应路由及SHARP聚合协议,是B200集群的核心互联设备,可通过两层或三层架构实现千级GPU的无收敛互联。
3.2.2 以太网新标杆:Spectrum-X800 SN5600
SN5600基于Spectrum-4芯片打造,是当前量产的最高性能以太网交换机,提供64个800Gb/s OSFP端口或128个400Gb/s端口,交换容量51.2Tb/s。在B300集群中,采用两层无收敛架构时,800Gb/s端口模式可支持2048个GPU,400Gb/s端口模式则可扩展至8192个GPU,已被主流OEM厂商广泛采用。
3.2.3 IB旗舰:Quantum-X800 Q3400
Q3400是首款采用200Gb/s每通道SerDes技术的IB交换机,4U机架设计提供144个800Gb/s端口(分布于72个OSFP接口),支持风冷与液冷两种版本。其两层fat-tree拓扑可连接10368个NIC,是GB300集群的首选设备,较QM9700实现2.25倍的端口密度提升,大幅降低大规模集群的交换机部署数量。
第四章:SuperPod集群架构实战方案
4.1 B200 SuperPod:基于QM9700的务实选择
B200 SuperPod采用QM9700 IB交换机构建后端网络,两层互联架构的核心设计为:以32个节点组成一个可扩展单元(SU),因Leaf交换机64个400Gb/s端口需半数用于上行连接,故单SU仅能容纳32个节点;第4个SU因Leaf交换机需预留端口连接UFM管理设备,节点数量减少至31个,形成127个节点的标准配置。两层互联方案如下图所示(4 SU,127 Node)
理论上,两层架构可支持2048个GPU(8个SU,扣除1个节点的8个GPU)。3 层网络则可以支持更大规模的 GPU 集群,与 H100 方案类似,比如:
- 64 个 SU,可以支持 2048 个 Node,16384 个 B200 GPU。当然也就需要 256 + 512 + 512=1280 个 QM9700 IB 交换机
当然,如果可以使用上述的 SN5600 构建 2 层网络集群,最多可以支持 128*128/2 = 8192 B200 GPU。
4.2 B300 SuperPod 参考架构
NVIDIA 在 DGX B300 SuperPod 的后端网络(计算网络)方案中采用了 SN5600 交换机(以太网),最多只支持 64 个 800 Gbps Port,两层无收敛网络架构最多支持 2048 GPU。不过,当前的 CX-8 不支持 800Gbps 的以太网 Port。此外,为了支持更多 GPU,NVIDIA 采用了多平面设计,这里是两个平面(每个 800Gbps NIC 会分为 2 个 400Gbps Port,它们各自构成一个通信平面,后端网络可以看成 2 个平行、独立的 400Gbps 网络)。如下图所示:
- 一个 B300 Node 包含 8 个 B300 GPU,16 个 400Gbps Port,每 8 个一个平面(蓝色是一个平面,绿色是一个平面)。
- 每个 SU 包含 64 个 B300 Node,共 512 个 B300 GPU,连到 Leaf Switch。
- SN5600 可以分为 128 个 400Gb/s Port,连接 64 个 Node。
- 每个 SU 会有 16 个 Leaf Switch。每个平面 8 个,对应 8*128=1024 个 400Gbps Port,一半连 GPU 网卡,一半连 Spine Switch 。
- 多个 SU 通过 Spine Switch 连接,16 个 SU 可以支持 8192 B300 GPU。
- 每个平面包含 8*16=128 个 Leaf Switch,需要 64 个 Spine Switch。
- 两个平面 64*2=128 个 Spine Switch。
- 这里的 Leaf 和 Spine Switch 都是上述的 SN5600 Switch。
如下图所示,包括了不同 SU 对应的 Node 数量(GPU 数量)、Leaf Switch 和 Spine Switch 数量。
上述一个 SU 组成如下图所示:
- 8 个 GPU Rack,每个 Rack 包含 4 个 DGX B300 Node,共 32 B300 GPU,功耗达到 50kw。
- 其他几个 Rack 放置交换机,存储节点等。
4.3 GB200 SuperPod 参考架构
NVIDIA 的 GB200 SuperPod 参考架构中后端网络同样采用的是 QM9700 IB 交换机,最多支持 64 个 400 Gbps Port。因此相应的互联规模也有很大的局限性。
如下图所示,2 层网络只能支持 576 GPU(PS:这里存在很多 Port 浪费):
- 共 32 个 Leaf Switch,每 8 个一组为一个 Rail。Rail 中的每个 Leaf Switch 都连接一个 Rack。
- 每个 Rack 中的 18 个 400 Gbps Port 连接一个 Leaf Switch,共 72 个 Port,会连接 4 个 Rail。
- Leaf Switch 中大量 Port 会浪费,下行 18 个 Port,为了无收敛,上行也是 18 个 Port(每个 Spine 连 2 个),浪费 28 个 Port。
- 9 个 Spine Switch 正好对应 64*9=576 个 GPU,无收敛(PS:相应的理论上只需要 18 个 Leaf Switch,实际上用了 32 个)。
为了支持更大规模,只能采用 3 层网络架构:
- 每个 SU 8 个 GPU Rack,576 GPU:
- 还是 32 个 Leaf Switch,与 GPU Rack 的连接方式也不变。
- 24 个 Spine Switch,每个 Rail 里 6 个 Spine Switch 连接一个 Rail 里的 8 个 Leaf Switch。所以,Spine Switch 下行 Port 会有 8*18/6=24 个 Port 连接 Leaf Switch。
- 6 个 Core Group,每个 Core Group 中的 Core Switch 与 SU 数量呈正比(1 个 SU 对应 3 个 Switch),这里以 16 个 SU 为例:
- 共 24 * 16 = 384 个 Spine Switch,每个 Spine Switch 有 24 个上行 Port,所以有 24 * 384=9216 个上行 Port。
- 每个 Core Group 包含 24 个 Core Switch。共 6*24=144 个 Core Switch,对应 144*64=9216 个 Port,也就是 9216 个 GPU。
- 每个 Spine Switch 的 24 个上行 Port 对应一个 Core Group,这里每 Group 24 个 Core Switch,所以相当于一个 Spine Switch 的 24 个 Port 连接一个 Group 中的 24 个 Core Switch。每个 Rail 里 6 个 Spine Switch,对应 6 个 Group。
如下图所示,9216 GPU 的集群需要 144+512+384=1040 个 QM9700 Switch(共 1040*64=66560 个 400 Gbps Port )。
4.4 GB300 SuperPod 参考架构
NVIDIA 也最新发布了 GB300 SuperPod 集群的参考架构,其后端网络采用最新的 Quantum-X800 Q3400 交换机组成 IB 网络,其包含 144 个 800 Gbps Port,相应的拓扑要简单的多:
- 每个 SU 包含:
- 8 个 NVL72 Rack = 576 GPU。
- 8 个 Leaf Switch,每个 Leaf Switch 144 个 800 Gbps Port。
- 一个 Leaf Switch 连接 4 个 Rack,占用 4 x 18 = 72 个 800 Gbps Port。
- 每两个 Leaf Switch 一组,构成一个 Rail,每组都会连接 8 个 Rack。
- SuperPod 包括最多 16 个 SU:
- 72*8*16=9216 GPU。
- 对应 8 * 16(SU) = 128 个 Leaf Switch。
- 每个 Spine Switch 都会连接 128 个 Leaf Switch。
- Leaf Switch 上行还剩 72 个 Port,72 个 Spine Switch 即可。
如下表所示为相应的 GPU 规模及对应的 SU 以及 Switch 个数,可以看出:
- 9216 GPU 只需要 128+72=200 个 Q3400(共 200*128=25600 个 800 Gbps Port)。
- 而 GB200 方案中,9216 GPU 需要 1040 个 QM9700(共 1040*64=66560 个 400 Gbps Port )。
