NVIDIA Blackwell系列GPU（B200/B300/GB200/GB300）集群互联设计参考

admin
AIGC
2025-12-04
770热度
0评论

引言：Blackwell集群互联的技术价值

随着AI大模型训练对算力规模需求的指数级增长，GPU集群的高效互联成为制约整体性能发挥的关键环节。NVIDIA近期正式对外公布了GB300 SuperPod集群的参考架构规范，结合此前推出的B200、B300及GB200相关技术标准，形成了完整的Blackwell系列集群解决方案。本文将聚焦于该系列的计算网络互联（后端网络）技术细节，存储网络、带内（In-Band）网络及带外（Out-of-Band）网络等辅助架构因原理相通，暂不展开详述。

第一章：Blackwell系列GPU核心规格解析

1.1 产品矩阵总览

作为NVIDIA当前算力输出的核心产品线，B200、B300、GB200与GB300四款GPU在硬件配置上形成梯度差异，这些差异直接决定了其集群互联的技术路径。核心区别集中体现在五个维度：显存容量从192GB提升至288GB；配套网卡速率从400Gbps（CX-7系列）升级至800Gbps（CX-8系列）；TPU/SM核心数量从74/148组增至80/160组；FP4稠密算力呈现1:1.5的性能差距；NVLink互联域规模则从8 GPU扩展至72 GPU。

1.2 各型号核心特性详解

1.2.1 Blackwell B200：入门级高性能之选

B200的核心创新在于采用双Die封装设计，两个计算Die通过NV-HBI高速互联通道实现10TB/s的交互带宽。需要特别说明的是，其标称算力基于完整GPU规格，实际部署中因仅启用80个TPC中的74个（含频率影响），稀疏FP8算力为9P，对应稠密FP8算力4.5P。显存配置方面，8组24GB HBM3e显存颗粒构成192GB总容量，后端网络适配400Gbps速率的CX-7网卡。

1.2.2 Blackwell B300：算力与带宽升级版本

B300在B200基础上实现精准升级：将24GB HBM3e显存颗粒替换为36GB版本，使总显存提升至288GB；FP4稠密算力从9P提升至13.5P，其算力倍增逻辑为——FP4稠密算力是FP8稠密算力的3倍，而FP4稀疏算力仍保持为FP8稀疏算力的2倍；网络接口升级至CX-8 800Gbps网卡；功耗从1000W增至1100W；Attention加速能力（SFU EX2）从B200的5T Exponentials/s提升至10.7T Exponentials/s，较前代H100实现2.4倍提升。

1.2.3 Blackwell GB200/GB300：CPU-GPU融合架构

GB系列与B系列的核心差异在于集成度——每个GB200/GB300单元包含2个GPU和1个Grace CPU，形成"2+1"融合计算节点。由于GPU启用了完整的80个TPC核心，其算力较同代B系列提升约8%（74/80比例关系，含频率优化）。具体性能对比为：B200/B300的FP16稠密算力2.25P，GB200/GB300则达2.5P×2=4.5P；B200的9P FP4算力，在GB200中升级为10P×2=20P；B300的13.5P FP4算力，对应GB300的15P×2=30P。功耗方面，GB200单单元功耗2700W，GB300则暂未公布具体数值。

1.2.4 OpenAI定制版GB200：专属网络优化方案

据SemiAnalysis行业报告显示，OpenAI与NVIDIA联合定制了GB200的网络适配方案，成为目前唯一实现GB200配800Gbps网络的案例。该方案通过每个计算托盘配置8个400GbE OSFP接口，实现单GPU 800GbE的传输能力（每个CX-8网卡对应2个400GbE接口）。技术路径上，定制版GB200通过PCIe Gen6直接连接CX-8网卡，而标准版GB200需经C2C通道连接Grace CPU后，再通过PCIe Gen5连接CX-7网卡，网络延迟与带宽均存在显著差异。

第二章：节点级与机柜级互联方案（DGX & NVL72）

2.1 DGX系列：8GPU节点级架构

B200与B300通常以8个GPU为单元组成标准计算节点，即NVIDIA DGX（或HGX）系列服务器。其互联核心特征包括：8个GPU通过NVLink v5与NVSwitch实现全互联，确保节点内无阻塞通信；每个GPU独立配备一张网卡（B200配CX-7，B300配CX-8）；支持风冷与液冷两种散热方案，适配不同机房环境。

对比前代产品，DGX B200/B300在核心指标上实现跨越式提升：DGX B200的1.54TB总显存（8×192GB）是DGX H100（1.1TB）的1.4倍，DGX B300的2.3TB（8×288GB）更是达到2.1倍；FP4稠密算力方面，DGX B200为72P，DGX B300达108P，较DGX H100的36P分别提升2倍和3倍；网络接口从DGX H100的2×400Gb/s升级至DGX B300的2×800Gb/s，IB网络则实现8×400Gb/s到8×800Gb/s的翻倍。

2.2 NVL72系列：72GPU机柜级架构

GB200/GB300采用更高密度的整机柜部署方案，即NVL72架构，单个机柜可容纳72个GPU，核心配置包括：18个计算托盘（每个托盘含2个GB单元，即2个CPU+4个GPU）；9个NVSwitch托盘（每个托盘含2个NVSwitch，单个NVSwitch提供72个端口）；整机柜功耗达120kW，必须采用液冷散热；网络接口方面，GB200 NVL72配备72个400Gb/s CX-7端口，GB300 NVL72则升级为72个800Gb/s CX-8端口。

NVL72架构的互联关键在于NVSwitch的全互联设计——单个NVSwitch拥有72个NVLink端口，18个NVSwitch通过多级互联实现72个GPU的无死角通信。如下图

以GB300 NVL72为例，其576TB/s的总显存带宽（72×8TB/s）、130TB/s的NVLink总带宽（72×1.8TB/s）及3.6TB/s的后端网络带宽（72×800Gb/s），为超大规模模型训练提供了坚实的硬件基础。

第三章：集群互联核心组件（网卡与交换机）

3.1 网卡：从CX-7到CX-9的速率跃迁

3.1.1 CX-8 SuperNIC：PCIe Gen6的先行者

CX-8 SuperNIC的核心突破是集成PCIe Switch模块，原生支持PCIe Gen6接口，目前已成为B300服务器的标准配置。

其端口模式具备灵活适配性：如下图所示InfiniBand模式下支持1个800Gb/s端口或2个400Gb/s端口；以太网模式下暂不支持单端口800Gb/s，仅可配置为2个400Gb/s端口。该网卡通过NCCL、DOCA等软件栈优化，实现GPU、CPU、SSD与网络之间的QoS调度，同时节省NVLink C2C带宽资源。

3.1.2 CX-9 SuperNIC：以太网800G的解决方案

作为下一代网卡产品，CX-9重点解决了CX-8在以太网场景的速率限制，实现InfiniBand与以太网双协议下的800Gb/s单端口速率支持，总带宽可达1.6Tb/s。其与Spectrum-XT以太网交换机、Quantum-X800 IB交换机的协同设计，可满足百万参数级AI模型训练、分布式推理等场景的网络需求，同时通过功耗优化支撑绿色数据中心建设。

3.2 交换机：高密端口支撑集群扩展

3.2.1 前代经典：Quantum-2 QM9700 IB交换机

QM9700作为上一代IB交换机主力产品，采用1U机架设计，提供64个400Gb/s端口，双向聚合带宽达51.2Tb/s，包转发率超66.5亿pps。其支持RDMA、自适应路由及SHARP聚合协议，是B200集群的核心互联设备，可通过两层或三层架构实现千级GPU的无收敛互联。

3.2.2 以太网新标杆：Spectrum-X800 SN5600

SN5600基于Spectrum-4芯片打造，是当前量产的最高性能以太网交换机，提供64个800Gb/s OSFP端口或128个400Gb/s端口，交换容量51.2Tb/s。在B300集群中，采用两层无收敛架构时，800Gb/s端口模式可支持2048个GPU，400Gb/s端口模式则可扩展至8192个GPU，已被主流OEM厂商广泛采用。

3.2.3 IB旗舰：Quantum-X800 Q3400

Q3400是首款采用200Gb/s每通道SerDes技术的IB交换机，4U机架设计提供144个800Gb/s端口（分布于72个OSFP接口），支持风冷与液冷两种版本。其两层fat-tree拓扑可连接10368个NIC，是GB300集群的首选设备，较QM9700实现2.25倍的端口密度提升，大幅降低大规模集群的交换机部署数量。

第四章：SuperPod集群架构实战方案

4.1 B200 SuperPod：基于QM9700的务实选择

B200 SuperPod采用QM9700 IB交换机构建后端网络，两层互联架构的核心设计为：以32个节点组成一个可扩展单元（SU），因Leaf交换机64个400Gb/s端口需半数用于上行连接，故单SU仅能容纳32个节点；第4个SU因Leaf交换机需预留端口连接UFM管理设备，节点数量减少至31个，形成127个节点的标准配置。两层互联方案如下图所示（4 SU，127 Node）

理论上，两层架构可支持2048个GPU（8个SU，扣除1个节点的8个GPU）。3 层网络则可以支持更大规模的 GPU 集群，与 H100 方案类似，比如：

64 个 SU，可以支持 2048 个 Node，16384 个 B200 GPU。当然也就需要 256 + 512 + 512=1280 个 QM9700 IB 交换机

当然，如果可以使用上述的 SN5600 构建 2 层网络集群，最多可以支持 128*128/2 = 8192 B200 GPU。

4.2 B300 SuperPod 参考架构

NVIDIA 在 DGX B300 SuperPod 的后端网络（计算网络）方案中采用了 SN5600 交换机（以太网），最多只支持 64 个 800 Gbps Port，两层无收敛网络架构最多支持 2048 GPU。不过，当前的 CX-8 不支持 800Gbps 的以太网 Port。此外，为了支持更多 GPU，NVIDIA 采用了多平面设计，这里是两个平面（每个 800Gbps NIC 会分为 2 个 400Gbps Port，它们各自构成一个通信平面，后端网络可以看成 2 个平行、独立的 400Gbps 网络）。如下图所示：

一个 B300 Node 包含 8 个 B300 GPU，16 个 400Gbps Port，每 8 个一个平面（蓝色是一个平面，绿色是一个平面）。
每个 SU 包含 64 个 B300 Node，共 512 个 B300 GPU，连到 Leaf Switch。
- SN5600 可以分为 128 个 400Gb/s Port，连接 64 个 Node。
- 每个 SU 会有 16 个 Leaf Switch。每个平面 8 个，对应 8*128=1024 个 400Gbps Port，一半连 GPU 网卡，一半连 Spine Switch 。
多个 SU 通过 Spine Switch 连接，16 个 SU 可以支持 8192 B300 GPU。
- 每个平面包含 8*16=128 个 Leaf Switch，需要 64 个 Spine Switch。
- 两个平面 64*2=128 个 Spine Switch。
这里的 Leaf 和 Spine Switch 都是上述的 SN5600 Switch。

如下图所示，包括了不同 SU 对应的 Node 数量（GPU 数量）、Leaf Switch 和 Spine Switch 数量。

上述一个 SU 组成如下图所示：

8 个 GPU Rack，每个 Rack 包含 4 个 DGX B300 Node，共 32 B300 GPU，功耗达到 50kw。
其他几个 Rack 放置交换机，存储节点等。

4.3 GB200 SuperPod 参考架构

NVIDIA 的 GB200 SuperPod 参考架构中后端网络同样采用的是 QM9700 IB 交换机，最多支持 64 个 400 Gbps Port。因此相应的互联规模也有很大的局限性。

如下图所示，2 层网络只能支持 576 GPU（PS：这里存在很多 Port 浪费）：

共 32 个 Leaf Switch，每 8 个一组为一个 Rail。Rail 中的每个 Leaf Switch 都连接一个 Rack。
每个 Rack 中的 18 个 400 Gbps Port 连接一个 Leaf Switch，共 72 个 Port，会连接 4 个 Rail。
Leaf Switch 中大量 Port 会浪费，下行 18 个 Port，为了无收敛，上行也是 18 个 Port（每个 Spine 连 2 个），浪费 28 个 Port。
9 个 Spine Switch 正好对应 64*9=576 个 GPU，无收敛（PS：相应的理论上只需要 18 个 Leaf Switch，实际上用了 32 个）。

为了支持更大规模，只能采用 3 层网络架构：

每个 SU 8 个 GPU Rack，576 GPU：
- 还是 32 个 Leaf Switch，与 GPU Rack 的连接方式也不变。
- 24 个 Spine Switch，每个 Rail 里 6 个 Spine Switch 连接一个 Rail 里的 8 个 Leaf Switch。所以，Spine Switch 下行 Port 会有 8*18/6=24 个 Port 连接 Leaf Switch。
6 个 Core Group，每个 Core Group 中的 Core Switch 与 SU 数量呈正比（1 个 SU 对应 3 个 Switch），这里以 16 个 SU 为例：
- 共 24 * 16 = 384 个 Spine Switch，每个 Spine Switch 有 24 个上行 Port，所以有 24 * 384=9216 个上行 Port。
- 每个 Core Group 包含 24 个 Core Switch。共 6*24=144 个 Core Switch，对应 144*64=9216 个 Port，也就是 9216 个 GPU。
- 每个 Spine Switch 的 24 个上行 Port 对应一个 Core Group，这里每 Group 24 个 Core Switch，所以相当于一个 Spine Switch 的 24 个 Port 连接一个 Group 中的 24 个 Core Switch。每个 Rail 里 6 个 Spine Switch，对应 6 个 Group。

如下图所示，9216 GPU 的集群需要 144+512+384=1040 个 QM9700 Switch（共 1040*64=66560 个 400 Gbps Port ）。

4.4 GB300 SuperPod 参考架构

NVIDIA 也最新发布了 GB300 SuperPod 集群的参考架构，其后端网络采用最新的 Quantum-X800 Q3400 交换机组成 IB 网络，其包含 144 个 800 Gbps Port，相应的拓扑要简单的多：

每个 SU 包含：
- 8 个 NVL72 Rack = 576 GPU。
- 8 个 Leaf Switch，每个 Leaf Switch 144 个 800 Gbps Port。
  - 一个 Leaf Switch 连接 4 个 Rack，占用 4 x 18 = 72 个 800 Gbps Port。
  - 每两个 Leaf Switch 一组，构成一个 Rail，每组都会连接 8 个 Rack。
SuperPod 包括最多 16 个 SU：
- 72*8*16=9216 GPU。
- 对应 8 * 16(SU) = 128 个 Leaf Switch。
- 每个 Spine Switch 都会连接 128 个 Leaf Switch。
- Leaf Switch 上行还剩 72 个 Port，72 个 Spine Switch 即可。

如下表所示为相应的 GPU 规模及对应的 SU 以及 Switch 个数，可以看出：

9216 GPU 只需要 128+72=200 个 Q3400（共 200*128=25600 个 800 Gbps Port）。
而 GB200 方案中，9216 GPU 需要 1040 个 QM9700（共 1040*64=66560 个 400 Gbps Port ）。