通向AGI的钥匙:100,000H100非常AI算率集群
- AIGC
- 2024-10-16
- 502热度
- 0评论
自GPT-4发布以来,全球AI能力发展势头有所放缓。
但是这并不意味着Scaling Law失败,并非因为训练数据不足,而是因为它遇到了一个结实的算率瓶颈。
具体来说,GPT-练习算率约为2e25。 FLOP,最近发布的GoogleGeminini等几个大型模型 Ultra、Nvidia Nemotron 340B、还有Meta Llama3 在405B背后使用的练习算率大致相当于GPT-4,没有质的提高,所以模型的新能力无法解锁。
为成为AI时代的造物主,OpenAI/微软、xAI、像Meta这样的科技巨头正在争相建立一个由10万元H100组成的超级AI算率集群。
如果你想实现这个目标,光有钱是远远不够的。它涉及许多技术问题,如能源挑战、网络拓扑结构、可靠性保证、并行计划、框架布局等。
这类技术难题是人类通往AGI的障碍,同时也孕育了巨大的投资机会。
最近,SemiAnalysis发布了一份名为“100,0000”的重磅深度报告 H100 Clusters: Power, Network Topology, Ethernet vs InfiniBand, Reliability, Failures, Checkpointing》,对于这个话题进行分析,高度认可。
接下来我给大家解读一下这个大报告。报告链接放在文末,欢迎有兴趣的朋友阅读原文。
我先列出主要结论,然后再开始进行:
AI公司的生死线由GPU数量决定。目前AI公司第一梯队的门票是32,000卡集群,明年第一梯队的门票可能会增加到100,000卡集群。
由10万张H100组成的AI集群功耗约为150MW,超过40亿美元的资本支出,电费每年高达1.2亿美元。
为了满足下一代万亿参数、多模式、大模式的训练,需要精致的网络拓扑结构设计,综合利用数据并行、张量并行、流水线并行等技术进行分布式训练。
为防止Nvidia支付高额费用? Tax,越来越多的Hyperscaler开始选择博通的Tomahawk 建立自己的非常AI集群,而不是Nvidia的Spectrum-X,未来博通的网络收益将继续飙升。
接下来我们正式开始。这篇文章有点硬核,建议耐心阅读哈。
(1)AI Infra的现状:一边铺设轨道,一边快速行驶
AI Infra已成为下一代大模型诞生的重要瓶颈。
有人形容OpenAI的内部状态就像一列开拓新世界的火车。科学家负责让火车高速行驶。Infra工程师负责在前面修理铁路。铁路铺装和火车行驶齐头并进。
据估计,单个非常AI集群的资本支出超过40亿美元,耗电1500美元 MW,每年能耗1.59TWh。按照0.078美元/kWh的标准费率,每年的电费将达到1.24亿美元。
虽然成本极高,但全球科技巨头仍趋之若鹜。
我们来衡量一下由10万卡组成的超级AI算率集群能提供多少计算能力。
在约20,000元的A100中,OpenAI对GPT-4进行了90天的训练,BF16 大约2.15e25,FLOPS FLOP。
该集群的峰值吞吐量为6.28 BF16 ExaFLOP/秒。
由10万元H100组成的超级集群中,这一数字将飙升至1980 FP16 ExaFLOP每秒,增加31.5倍。
利用H100训练万亿参数模型,可实现FP88的高达35% FP16的MFU和40% MFU。
MFU(Model FLOPs Utilization)在测试模型训练过程中,GPU的实际计算能力与其理论峰值之比。该指标反映了硬件资源在大模型训练中的具体计算能力。
100天的H100集群训练,可以达到6e26左右的有效FP8 FLOP。
换句话说,GPT-4的练习只需4天就可以完成。。
(2)AI背后的能源挑战
在计算瓶颈的背后,有两座大山,即“能源”和“工程能力”。
一个由10万元H100组成的集群需要150MW左右的功率。到目前为止,超级计算机El Capitan只需要30MW功率,只有1/5。
这个150MW可以分为H100。 Server内部的功耗,以及H100 Server外部设备配件耗电。
H100 在Server内部,每个GPU本身的功耗大约为700W,CPU为每个GPU配套。、NIC(Network Interface Card)、PSU(Power Supply Units)大约需要575W的功耗。
H100 在Server外部,AI集群还涵盖了许多其它设备,如存储服务器、网络交换机、光收发器等,约占总功耗的10%。
现在世界上还没有一个数据中心有实力部署150MW的AI集群。X.AI 甚至把田纳西州孟菲斯市的一家老厂改造成了数据中心。
这类AI集群通过光通信进行互联,而光通信的成本与传输距离成正比。
多模式SR和AOC收发器的最长传输距离约为50米。
远程单模DR和FR收发器的传输距离为500米~2000米,但是它们的成本是前者的2.5倍。
公园级800G相关光收发器的传输距离可超过2000米,但成本要高出10倍以上。
H100集群规模较小的一般做法是,通过1-2层交换机,将所有GPU与400G多模光收发器连接起来。
对大型H100集群而言,需要增加更多层次的交换机,光学设备的成本也将变得十分昂贵。不同的网络拓扑结构将带来完全不同的资金支出。
每个数据中心建筑都可称为计算岛(compute island),其中包含多个“计算仓库”(compute pod),这是一种廉价的铜缆互联的计算仓库。接着是多个“计算岛”(compute island)它们之间通过长距离的光通信进行互联。
当前,在数据中心集中提供150MW功率是相当困难的,因此网络拓扑结构的设计尤为重要。
一些AI公司选择Broadcom Tomahawk 有的选择Infiniband,有的选择英伟达的Spectrum。-X。接下来,我们将讨论原因,并对这些策略的优缺点进行比较。
(3)AI 网络拓扑与并行设计是Infra的关键
要深入了解网络拓扑结构,首先要了解三种不同类型的并行设计方法,即数据并行、张量并行、流水线并行。
数据并行(Data Parallelism)
数据平行是最简单的平行方式,每个GPU都有一个完整的模型权重副本,并接受不同的训练数据子集。
由于GPU之间只需要传递梯度数据,所以这种并行的通信要求最低。
然而,数据并行要求每个GPU都有足够的内存来存储整个模型的权重。这就像 GPT-4 如此拥有18,000亿参数模型,代表10.8万亿参数模型。 内存占用TB。
张量并行(Tensor Parallelism)
每个人都创造了张量并行技术,以克服数据并行带来的内存限制。
张量在多个GPU上并行分配模型每一层的工作和权重,通常沿着隐藏层面进行分割。这意味着每个GPU只处理模型的一部分,而不是整个模型。
在张量平行中,GPU之间需要频繁的通信来交换中间值,从外面看起来像一个巨大的GPU。因此,张量平行需要高带宽和低延迟的网络连接。
每个GPU的内存要求可以通过张量并行有效降低。例如,当NVLink连接使用8个张量并行级别时,每个GPU使用的内存可以减少8倍。
流水线并行(Pipeline Parallelism)
流水线并行技术是克服GPU内存限制的另一种方法。
流水线并行的核心思想是向不同的GPU分配不同层次的模型,每个GPU只负责一部分层次的计算。
当一个GPU完成层的前向和反向传播计算时,中间结果可以传达给下一个GPU,下一个数据批号可以立即开始计算。
由于每一个GPU只有存储模型的一部分层,使用流水线并行技术可以减少每一个GPU所需的内存空间。
然而,它增加了GPU之间的通信量。计算完每个GPU后,需要将数据传输到下一个GPU,这就需要高效的数据连接来支持数据的快速传输。
流水线并行对通信量要求很高,但是没有张量并行那么高。
3D并行(3D Parallelism)
为最大限度地提高FLOP模型的利用率(MFU),Hyperscaler通常将三种并行技术结合起来,形成 3D 并行。
具体做法如下:第一,H100 Server中的GPU使用张量并行,然后在同一个计算岛的节点之间使用流水线并行,最后在不同的计算岛之间使用数据并行。
AI集群设计方案Hyperscalers
了解了并行计划策划之后,我们一起来看看Hyperscalers非常AI算率集群的具体方案。
先看看Meta的设计。如图所示,这是一个计算集群,包括32,000个GPU,共有8个计算岛。
每一个计算岛的GPU都是通过高带宽连接的,而岛与岛之间是通过顶层交换机连接的。
顶层交换机的带宽被故意设计成低于连接到下层交换机的总带宽,这就是所谓的“Oversubscribe",也就是超过带宽订阅。
超过带宽订阅会降低岛屿之间的通信速度,但在实际应用中,由于并非所有服务器都会同时使用最大带宽进行通信,因此通常不会对性能产生很大影响。
带宽过度订阅通过在顶层交换机上实施,平衡了性能和成本之间的关系。尽管这一设计可以限制岛屿之间的通信带宽,但是通过有效的网络管理,可以在降低建设和维护成本的同时,保证整个集群的运行效率。
与Meta相比,Google设计了一种网络结构,专门用于支持大规模TPU计算集群,称为ICICI。(Inter Chiplet Interconnect)。
ICI网络最多可以支持8960个TPU芯片,每个64 在训练过程中,TPU水冷机架之间需要连接昂贵的800G,只使用前端网络。
由于ICI网络只能扩展到一定的规模,Google需要通过不断加强TPU前端网络来弥补这一不足,而不是像GPU集群那样通过增加更多的网络层次来扩展。
(5)AI 炼狱稳定性,Infra
可靠性是AI集群面临的一个重要挑战。
GPU节点在模型训练过程中会不断地停机或报错。GPU报错是常见的。 HBM ECC Error、GPU驱动器卡住,光收发器故障,网卡过热等。
数据中心必须保留热备节点,以确保模型训练的持续性,减少平均故障的恢复时间。
如果出了问题,千万不要停止训练,而是要直接换到工作备用节点继续训练。
在大多数情况下,重启节点可以解决问题。然而,在某些情况下,技术人员需要介入进行物理诊断和更换。
有时候技术人员只需要几个小时就可以修复损坏的GPU,但是在更多的前提下,损坏的节点需要几天的时间才能重新投入训练。
在训练模型时,我们需要经常将模型Checkpoint保存到CPU内存或NAND。 在SSD中,防止HBM。 ECC等错误。
当出现错误时,需要从较慢的内存层重新加载模型权重,并重新开始训练。
但是经常进行Checkpointing会对系统的整体MFU造成损害。集群应该不断暂停,备份和储存当前的权重。
一般来说,Checkpointing每100次迭代一次,这意味着你最多可能会失去99个有用的训练步骤。
如果每次迭代需要2秒钟,在10万卡集群中,如果在迭代到99次时出现故障,你将失去229。 GPU天的工作量。
诸神之战:博通Tomahawk 5 vs Spectrum英伟达-X
目前建设10万个H100超级AI算率集群,有三种网络方案可供选择,即Broadcom。 Tomahawk 5,Nvidia Infiniband,还有Nvidia Spectrum-X。以下我们将详细比较这三种方案的优缺点。
各种AI集群中,Spectrum-与InfiniBand相比,X具有显著的优势,包括性能优势、可靠性和成本优势。
Spectrum-每一台SN5600交换机X以太网都有128个400G端口,而InfiniBand NDR Quantum-2交换机只有64个400G端口。
值得注意的是,BroadcomTomahawk ASIC也支持128个400G端口,这使得InfiniBand目前处于非常不利的地位。
相对于Tomahawk,Spectrum-X的主要优点是它获得了NCCL等Nvidia库的一流支持,而Tomahawkk则是 为了达到最大的吞吐量,你需要进行大量的内部工程设计。
为防止高额支付 Nvidia Tax,越来越多的Hyperscaler开始选择布局Broadcom Tomahawk 5方案。
每个台基于Tomahawkk Spectrum交换机的端口数量-X 同样的SN5600交换机,都是性能相近的128个400G端口。
大多数客户直接与ODM合作,例如Celestica用于交换机,Innolightica用于收发器。、Eoptolink。所以Tomahawk Nvidia的成本远低于5 InfiniBand,与Nvidia相比 Spectrum-X便宜。
但希望Tomahawk 达到和Nvidia Spectrum-X类似的表现,你需要有足够的工程能力来做Tomahawk 提高NCCL通信集群。
Nvidia为Spectrum-X和InfiniBand提供了一个NCCL通信集,可以打开盒子,但是它不适合Boardcom的Tomahawkk。 5。
Jensen一直称Nvidia为软件公司,软件生态为其提供了深厚的环城河。但是现在越来越多的AI公司试图填补自己的工程能力,防止Nvidia支付高额费用。 Tax。
BOM成本计算:10万卡AI集群需要多少Capex?
经过定性研究,我们将尝试进行定量计算。
下面详细计算了4个由H100组成的10万元AI集群设计方案的BOM费用。
这四种方案各有以下几种:
方案1:4层InfiniBand网络,32,768个GPU岛,轨道提升,77:1 oversubscription
方案2:SpectrumX网络3层,GPU岛32,768个,轨道提升,7个:1 oversubscription
方案3:3层InfiniBand网络,24,576个GPU岛,非轨道提升,节点内前端网络。
方案4:Broadcom3层 Tomahawk 5GPU岛,以太网网络,32,768个,轨道提升,7个:1 oversubscription
不难看出,Capex大约有40亿美元,10万元H100非常AI算率集群。。资本支出因选择的网络类型而异。
对比这四种方案,4层InfiniBand网络的成本是其它策略的1.3-1.6倍,这就是为什么没有人愿意选择大型InfiniBand网络。
与InfiniBand相比,Spectrum X提供了更大规模的计算岛,更高的岛间带宽,但是它也带来了很大的成本,也就是更高的功率需求。
我们认为,基于Broadcom Tomahawk 5计算岛和顶层72k计算岛:oversubscription是最具性价比的解决方案,因此,许多公司都在建设类似的网络。
由于Nvidia不需要支付 Tax,在同一TCO(总体成本)条件下,该方案可提供最高的网络性能。
展望未来,随着越来越多的Hyperscaler选择Tomahawkk 5来建立自己的AI集群,博通的网络收益将继续飙升。
(8)结论:AI时代军备竞赛
SemiAnalysis的这篇文章充满了干货和大量的信息。除上述话题外,本文还提到了轨道设计、平面布局、RoCE链接故障、RDMA复制等重要内容,如AI算率集群。 Infra进行了全面深入的分析和展望。
因为篇幅有限,我会把这些内容放在后续的文章中与大家分享。
由100,000张H100卡组成的超级AI算率集群,就像现代人类文明的奇观,是人类通向AGI的关键。
AI时代的军备竞赛已经拉开帷幕,筹码是天量Capex支出,胜者有机会成为AI时代的创造者。
在这场AI军备比赛中,谁将是最后的赢家?
作家:费斌杰 北京市青联委员 熵简技术CEO
(文毕)
本文来自微信微信官方账号“Alpha Engineer”(ID:Alpha-Engineer),作者:费斌杰,36氪经授权发布。