10万卡GPU集群背后的硬核技术详解

admin
AIGC
2024-10-18
490热度
0评论

目录

在当今人工智能和机器学习领域，大规模的计算能力是推动创新和突破的关键。而搭建一个拥有10万个H100 GPU的集群，极具挑战性。

这种规模集群能支持前所未有的模型训练和数据处理任务，对人工智能研究具有重要意义。

然而，搭建这样的集群并非易事，它涉及到电力供应、网络拓扑结构、并行化挑战、可靠性与恢复以及成本优化等。

NVIDIA H100 参数

• 内存：高达80GB的HBM内存，决定了模型可以存储和处理的权重和数据的量。
• 计算能力：提供了高达40 TFLOPS的FP16计算能力，使它成为AI模型的理想选择。
• 功耗：的功率为700W，加上其他功耗，总功耗约为1200W。
• 网络接口：支持NVLink和PCIe，可与GPU及外部存储和网络设备通信。

一、成本与电力估算

• 年度耗电量：集群的年耗电量约为1.59太瓦时（TWh）
• 电力成本：按照美国电力的标准费率（每千瓦时0.78美元），每年的电力成本约为1.24亿美元。
• 总成本：整个集群的搭建成本大约为40亿美元，这包括了硬件采购、软件许可、数据中心建设、冷却系统、网络设备、运营维护等所有费用。

二、性能对比

• H100集群能力：10万卡H100集群的理论峰值性能可达198 FP8或99 FP16 ExaFLOPS，这基于每个GPU的峰值性能和集群的总GPU数量计算得出。
• 训练时间：以OpenAI的GPT-4模型为例，使用FP8精度，10万卡H100集群可以在4天内完成训练，相比使用2万个A100的集群100天的耗时100天的耗时，训练时间大幅缩短，显示了H100集群在处理大规模AI任务时的效率。
• GPT-4算力需求 : OpenAI 为 GPT-4 训练的 BF16 FLOPS 约为 2.15e25 FLOP（2150 万 ExaFLOP）

三、挑战与解决方案

1. 电力挑战

• 总功率：集群的关键IT部件总功率约为150兆瓦（MW），这相当于一个小型城市的电力需求。
• 设施需求：由于单个数据中心大楼无法承载150兆瓦的负载，集群通常需要分布在多个建筑或整个园区中，这要求有高效的电力分配和冷却系统。
• 光纤收发器成本：随着传输距离的增加，光纤收发器的成本也随之上升，这影响了网络的整体设计和成本效益。

2. 并行化挑战

• 数据并行：每个GPU拥有模型权重的完整副本，梯度更新时进行累加。对GPU间通信要求最低，但要求每个GPU有足够的内存。
• 张量并行：神经网络层权重分布在多个GPU上，要求高带宽、低延迟的网络环境，以支持频繁的设备间通信。
• 流水线并行：将前向计算分为多个阶段，每个GPU负责一部分，对跨设备通信的要求较高，且需要精确的同步机制。
• 3D并行：结合数据并行、张量并行和流水线并行，以最大化FLOP利用率，同时解决内存限制和通信瓶颈。

3.1 网络拓扑结构

计算岛

为了降低成本，集群被划分为多个计算岛，每个岛内部带宽高，岛间带宽低，这有助于优化网络架构和减少成本。

网络方案：

• 胖树拓扑：提供高带宽连接，但成本高昂，通常不会用于整个集群，而是用于单个计算岛内部。
• InfiniBand网络：支持SHARP网络内缩减，提高网络带宽，但端口容量较低，适用于需要高带宽的应用。
• Spectrum-X以太网：得到NVIDIA库的一级支持，但需购买特定的收发器，提供了灵活性和可扩展性。

4. 可靠性与恢复

bg left:50% 90%

• 故障处理：采用热备用节点和冷备用组件，以减少故障恢复时间，确保集群的高可用性。
• 备份与恢复：定期保存检查点，利用内存重建技术快速恢复故障，减少计算损失，这要求有高效的存储和备份策略。

5. 成本优化

• 网络模块：使用Cedar Fever-7网络模块代替ConnectX-7，减少收发器数量，降低成本，同时保持网络性能。
• 交换机选择：比较InfiniBand、Spectrum-X和Broadcom Tomahawk 5的成本效益，选择合适的交换机，以平衡性能和成本。

四、集群搭建方案

方案1：4层InfiniBand网络，32,768个GPU集群，采用轨道优化设计，7:1收敛比，适用于需要极高带宽的应用。

方案2：3层Spectrum X网络，32,768个GPU集群，轨道优化设计，7:1收敛比，提供了良好的扩展性和成本效益。

方案3：3层InfiniBand网络，24,576个GPU集群，非轨道优化设计，用于前端网络的集群间连接，适合对网络带宽要求不是特别高的应用。

方案4：3层Broadcom Tomahawk 5以太网网络，32,768个GPU集群，轨道优化设计，7:1收敛比，提供了成本效益和灵活性。

五、最佳方案

基于博通Broadcom Tomahawk 5的32k集群，搭配7:1的收敛比，被认为是最佳的选择。这种方案在成本、性能和可扩展性之间取得了平衡，是多家公司构建大型GPU集群的首选。

六、总结：成本和性能

成本与电力估算：

• 年度耗电量约为1.59太瓦时（TWh），年电力成本约为1.24亿美元。
• 总资本支出大约为40亿美元，包括硬件、软件、设施和运营成本。

性能对比：

• 10万卡H100集群的理论峰值性能可达198 FP8或99 FP16 ExaFLOPS。
• 使用FP8精度，4天内可完成GPT-4训练

挑战与解决方案

• 电力挑战：总功率约为150兆瓦，需分布在园区中，并考虑电力供应稳定性和波动。
• 网络拓扑结构：计算岛内部带宽高，岛间带宽低，选择合适的网络方案，如InfiniBand、Spectrum-X和Broadcom Tomahawk 5。
• 可靠性与恢复：采用热备用节点和冷备用组件，以及内存重建技术。
• 成本优化：使用Cedar Fever-7网络模块代替ConnectX-7，以及比较不同交换机的成本效益。

本文参考：https://www.semianalysis.com/p/100000-h100-clusters-power-network

恨相知晚

一起参与讨论！

Copyright 2024-2030 365文档. ICP备案号京ICP备2022013586号-2