NVIDIA Blackwell系列GPU(B200/B300/GB200/GB300)集群互联设计参考

 

引言:Blackwell集群互联的技术价值

随着AI大模型训练对算力规模需求的指数级增长,GPU集群的高效互联成为制约整体性能发挥的关键环节。NVIDIA近期正式对外公布了GB300 SuperPod集群的参考架构规范,结合此前推出的B200、B300及GB200相关技术标准,形成了完整的Blackwell系列集群解决方案。本文将聚焦于该系列的计算网络互联(后端网络)技术细节,存储网络、带内(In-Band)网络及带外(Out-of-Band)网络等辅助架构因原理相通,暂不展开详述。

第一章:Blackwell系列GPU核心规格解析

1.1 产品矩阵总览

作为NVIDIA当前算力输出的核心产品线,B200、B300、GB200与GB300四款GPU在硬件配置上形成梯度差异,这些差异直接决定了其集群互联的技术路径。核心区别集中体现在五个维度:显存容量从192GB提升至288GB;配套网卡速率从400Gbps(CX-7系列)升级至800Gbps(CX-8系列);TPU/SM核心数量从74/148组增至80/160组;FP4稠密算力呈现1:1.5的性能差距;NVLink互联域规模则从8 GPU扩展至72 GPU。

1.2 各型号核心特性详解

1.2.1 Blackwell B200:入门级高性能之选

B200的核心创新在于采用双Die封装设计,两个计算Die通过NV-HBI高速互联通道实现10TB/s的交互带宽。需要特别说明的是,其标称算力基于完整GPU规格,实际部署中因仅启用80个TPC中的74个(含频率影响),稀疏FP8算力为9P,对应稠密FP8算力4.5P。显存配置方面,8组24GB HBM3e显存颗粒构成192GB总容量,后端网络适配400Gbps速率的CX-7网卡。

1.2.2 Blackwell B300:算力与带宽升级版本

B300在B200基础上实现精准升级:将24GB HBM3e显存颗粒替换为36GB版本,使总显存提升至288GB;FP4稠密算力从9P提升至13.5P,其算力倍增逻辑为——FP4稠密算力是FP8稠密算力的3倍,而FP4稀疏算力仍保持为FP8稀疏算力的2倍;网络接口升级至CX-8 800Gbps网卡;功耗从1000W增至1100W;Attention加速能力(SFU EX2)从B200的5T Exponentials/s提升至10.7T Exponentials/s,较前代H100实现2.4倍提升。

1.2.3 Blackwell GB200/GB300CPU-GPU融合架构

GB系列与B系列的核心差异在于集成度——每个GB200/GB300单元包含2个GPU和1个Grace CPU,形成"2+1"融合计算节点。由于GPU启用了完整的80个TPC核心,其算力较同代B系列提升约8%(74/80比例关系,含频率优化)。具体性能对比为:B200/B300的FP16稠密算力2.25P,GB200/GB300则达2.5P×2=4.5P;B200的9P FP4算力,在GB200中升级为10P×2=20P;B300的13.5P FP4算力,对应GB300的15P×2=30P。功耗方面,GB200单单元功耗2700W,GB300则暂未公布具体数值。

 

1.2.4 OpenAI定制版GB200:专属网络优化方案

据SemiAnalysis行业报告显示,OpenAI与NVIDIA联合定制了GB200的网络适配方案,成为目前唯一实现GB200配800Gbps网络的案例。该方案通过每个计算托盘配置8个400GbE OSFP接口,实现单GPU 800GbE的传输能力(每个CX-8网卡对应2个400GbE接口)。技术路径上,定制版GB200通过PCIe Gen6直接连接CX-8网卡,而标准版GB200需经C2C通道连接Grace CPU后,再通过PCIe Gen5连接CX-7网卡,网络延迟与带宽均存在显著差异。

第二章:节点级与机柜级互联方案(DGX & NVL72

2.1 DGX系列:8GPU节点级架构

B200与B300通常以8个GPU为单元组成标准计算节点,即NVIDIA DGX(或HGX)系列服务器。其互联核心特征包括:8个GPU通过NVLink v5与NVSwitch实现全互联,确保节点内无阻塞通信;每个GPU独立配备一张网卡(B200配CX-7,B300配CX-8);支持风冷与液冷两种散热方案,适配不同机房环境。

对比前代产品,DGX B200/B300在核心指标上实现跨越式提升:DGX B200的1.54TB总显存(8×192GB)是DGX H100(1.1TB)的1.4倍,DGX B300的2.3TB(8×288GB)更是达到2.1倍;FP4稠密算力方面,DGX B200为72P,DGX B300达108P,较DGX H100的36P分别提升2倍和3倍;网络接口从DGX H100的2×400Gb/s升级至DGX B300的2×800Gb/s,IB网络则实现8×400Gb/s到8×800Gb/s的翻倍。

2.2 NVL72系列:72GPU机柜级架构

GB200/GB300采用更高密度的整机柜部署方案,即NVL72架构,单个机柜可容纳72个GPU,核心配置包括:18个计算托盘(每个托盘含2个GB单元,即2个CPU+4个GPU);9个NVSwitch托盘(每个托盘含2个NVSwitch,单个NVSwitch提供72个端口);整机柜功耗达120kW,必须采用液冷散热;网络接口方面,GB200 NVL72配备72个400Gb/s CX-7端口,GB300 NVL72则升级为72个800Gb/s CX-8端口。

NVL72架构的互联关键在于NVSwitch的全互联设计——单个NVSwitch拥有72个NVLink端口,18个NVSwitch通过多级互联实现72个GPU的无死角通信。如下图

以GB300 NVL72为例,其576TB/s的总显存带宽(72×8TB/s)、130TB/s的NVLink总带宽(72×1.8TB/s)及3.6TB/s的后端网络带宽(72×800Gb/s),为超大规模模型训练提供了坚实的硬件基础。

第三章:集群互联核心组件(网卡与交换机)

3.1 网卡:从CX-7CX-9的速率跃迁

3.1.1 CX-8 SuperNICPCIe Gen6的先行者

CX-8 SuperNIC的核心突破是集成PCIe Switch模块,原生支持PCIe Gen6接口,目前已成为B300服务器的标准配置。

其端口模式具备灵活适配性:如下图所示InfiniBand模式下支持1个800Gb/s端口或2个400Gb/s端口;以太网模式下暂不支持单端口800Gb/s,仅可配置为2个400Gb/s端口。该网卡通过NCCL、DOCA等软件栈优化,实现GPU、CPU、SSD与网络之间的QoS调度,同时节省NVLink C2C带宽资源。

3.1.2 CX-9 SuperNIC:以太网800G的解决方案

作为下一代网卡产品,CX-9重点解决了CX-8在以太网场景的速率限制,实现InfiniBand与以太网双协议下的800Gb/s单端口速率支持,总带宽可达1.6Tb/s。其与Spectrum-XT以太网交换机、Quantum-X800 IB交换机的协同设计,可满足百万参数级AI模型训练、分布式推理等场景的网络需求,同时通过功耗优化支撑绿色数据中心建设。

3.2 交换机:高密端口支撑集群扩展

3.2.1 前代经典:Quantum-2 QM9700 IB交换机

QM9700作为上一代IB交换机主力产品,采用1U机架设计,提供64个400Gb/s端口,双向聚合带宽达51.2Tb/s,包转发率超66.5亿pps。其支持RDMA、自适应路由及SHARP聚合协议,是B200集群的核心互联设备,可通过两层或三层架构实现千级GPU的无收敛互联。

3.2.2 以太网新标杆:Spectrum-X800 SN5600

SN5600基于Spectrum-4芯片打造,是当前量产的最高性能以太网交换机,提供64个800Gb/s OSFP端口或128个400Gb/s端口,交换容量51.2Tb/s。在B300集群中,采用两层无收敛架构时,800Gb/s端口模式可支持2048个GPU,400Gb/s端口模式则可扩展至8192个GPU,已被主流OEM厂商广泛采用。

3.2.3 IB旗舰:Quantum-X800 Q3400

Q3400是首款采用200Gb/s每通道SerDes技术的IB交换机,4U机架设计提供144个800Gb/s端口(分布于72个OSFP接口),支持风冷与液冷两种版本。其两层fat-tree拓扑可连接10368个NIC,是GB300集群的首选设备,较QM9700实现2.25倍的端口密度提升,大幅降低大规模集群的交换机部署数量。

第四章:SuperPod集群架构实战方案

4.1 B200 SuperPod:基于QM9700的务实选择

B200 SuperPod采用QM9700 IB交换机构建后端网络,两层互联架构的核心设计为:以32个节点组成一个可扩展单元(SU),因Leaf交换机64个400Gb/s端口需半数用于上行连接,故单SU仅能容纳32个节点;第4个SU因Leaf交换机需预留端口连接UFM管理设备,节点数量减少至31个,形成127个节点的标准配置。两层互联方案如下图所示(4 SU127 Node

理论上,两层架构可支持2048个GPU(8个SU,扣除1个节点的8个GPU)。3 层网络则可以支持更大规模的 GPU 集群,与 H100 方案类似,比如:

  • 64 SU,可以支持 2048 Node16384 B200 GPU。当然也就需要 256 + 512 + 512=1280 QM9700 IB 交换机

当然,如果可以使用上述的 SN5600 构建 2 层网络集群,最多可以支持 128*128/2 = 8192 B200 GPU

4.2 B300 SuperPod 参考架构

NVIDIA DGX B300 SuperPod 的后端网络(计算网络)方案中采用了 SN5600 交换机(以太网),最多只支持 64 800 Gbps Port,两层无收敛网络架构最多支持 2048 GPU。不过,当前的 CX-8 不支持 800Gbps 的以太网 Port。此外,为了支持更多 GPUNVIDIA 采用了多平面设计,这里是两个平面(每个 800Gbps NIC 会分为 2 400Gbps Port,它们各自构成一个通信平面,后端网络可以看成 2 个平行、独立的 400Gbps 网络)。如下图所示:

  • 一个 B300 Node 包含 8 B300 GPU16 400Gbps Port,每 8 个一个平面(蓝色是一个平面,绿色是一个平面)。
  • 每个 SU 包含 64 B300 Node,共 512 B300 GPU,连到 Leaf Switch
    • SN5600 可以分为 128 400Gb/s Port,连接 64 Node
    • 每个 SU 会有 16 Leaf Switch。每个平面 8 个,对应 8*128=1024 400Gbps Port,一半连 GPU 网卡,一半连 Spine Switch
  • 多个 SU 通过 Spine Switch 连接,16 SU 可以支持 8192 B300 GPU
    • 每个平面包含 8*16=128 Leaf Switch,需要 64 Spine Switch
    • 两个平面 64*2=128 Spine Switch
  • 这里的 Leaf Spine Switch 都是上述的 SN5600 Switch

如下图所示,包括了不同 SU 对应的 Node 数量(GPU 数量)、Leaf Switch Spine Switch 数量。

上述一个 SU 组成如下图所示:

  • 8 GPU Rack每个 Rack 包含 4 DGX B300 Node,共 32 B300 GPU功耗达到 50kw
  • 其他几个 Rack 放置交换机,存储节点等。

4.3 GB200 SuperPod 参考架构

NVIDIA GB200 SuperPod 参考架构中后端网络同样采用的是 QM9700 IB 交换机,最多支持 64 400 Gbps Port。因此相应的互联规模也有很大的局限性。

如下图所示,2 层网络只能支持 576 GPUPS:这里存在很多 Port 浪费):

  • 32 Leaf Switch,每 8 个一组为一个 RailRail 中的每个 Leaf Switch 都连接一个 Rack
  • 每个 Rack 中的 18 400 Gbps Port 连接一个 Leaf Switch,共 72 Port,会连接 4 Rail
  • Leaf Switch 中大量 Port 会浪费,下行 18 Port,为了无收敛,上行也是 18 Port(每个 Spine 2 个),浪费 28 Port
  • 9 Spine Switch 正好对应 64*9=576 GPU,无收敛(PS:相应的理论上只需要 18 Leaf Switch,实际上用了 32 个)。

为了支持更大规模,只能采用 3 层网络架构:

  • 每个 SU 8 GPU Rack576 GPU
    • 还是 32 Leaf Switch,与 GPU Rack 的连接方式也不变。
    • 24 Spine Switch,每个 Rail 6 Spine Switch 连接一个 Rail 里的 8 Leaf Switch。所以,Spine Switch 下行 Port 会有 8*18/6=24 Port 连接 Leaf Switch
  • 6 Core Group,每个 Core Group 中的 Core Switch SU 数量呈正比(1 SU 对应 3 Switch),这里以 16 SU 为例:
    • 24 * 16 = 384 Spine Switch,每个 Spine Switch 24 个上行 Port,所以有 24 * 384=9216 个上行 Port
    • 每个 Core Group 包含 24 Core Switch。共 6*24=144 Core Switch,对应 144*64=9216 Port,也就是 9216 GPU
    • 每个 Spine Switch 24 个上行 Port 对应一个 Core Group,这里每 Group 24 Core Switch,所以相当于一个 Spine Switch 24 Port 连接一个 Group 中的 24 Core Switch每个 Rail 6 Spine Switch对应 6 Group

如下图所示,9216 GPU 的集群需要 144+512+384=1040 QM9700 Switch(共 1040*64=66560 400 Gbps Port )。

4.4 GB300 SuperPod 参考架构

NVIDIA 也最新发布了 GB300 SuperPod 集群的参考架构,其后端网络采用最新的 Quantum-X800 Q3400 交换机组成 IB 网络,其包含 144 800 Gbps Port,相应的拓扑要简单的多:

  • 每个 SU 包含:
    • 8 NVL72 Rack = 576 GPU
    • 8 Leaf Switch,每个 Leaf Switch 144 800 Gbps Port
      • 一个 Leaf Switch 连接 4 Rack,占用 4 x 18 = 72 800 Gbps Port
      • 每两个 Leaf Switch 一组,构成一个 Rail,每组都会连接 8 Rack
  • SuperPod 包括最多 16 SU
    • 72*8*16=9216 GPU
    • 对应 8 * 16(SU) = 128 Leaf Switch
    • 每个 Spine Switch 都会连接 128 Leaf Switch
    • Leaf Switch 上行还剩 72 Port72 Spine Switch 即可。

如下表所示为相应的 GPU 规模及对应的 SU 以及 Switch 个数,可以看出:

  • 9216 GPU 只需要 128+72=200 Q3400(共 200*128=25600 800 Gbps Port)。
  • GB200 方案中,9216 GPU 需要 1040 QM9700(共 1040*64=66560 400 Gbps Port )。