探索财经奥秘,指引财富未来

AMD推出MI325 X,这是一款288 GB人工智能加速器,旨在对抗Nvidia的H200

Tobias Mann 2024-06-03 11:35:59

Computex AMD的旗舰AI加速器MI325X将在今年晚些时候上市,届时将获得高带宽提升.

这一消息发布之际,AMD遵循了Nvidia的模式,并过渡到其“本能”系列加速器的年度发布节奏.

本能MI325X,至少从我们可以看出,很像Nvidia的H200,因为它是HBM3e增强版本,我们在AMD 2023年12月的Advance AI活动上详细介绍了它的GPU.

但该部件是我们迄今看到的最复杂的部件之一-由8个计算芯片、4个I/O芯片和8个内存芯片组成,使用2.

5D和3D封装技术的组合缝合在一起.

从我们所看到的情况来看,支持即将到来的芯片的CDNA 3 GPU瓷砖似乎没有发生重大变化-至少在失败方面没有变化.

该芯片仍然拥有1.

3千万亿次的密集BF/FP16性能,或者当下降到FP8时,2.

6千万亿次浮点的性能.

需要明确的是,在任何给定的精度上,MI325X仍然比H200快.

AMD的重点似乎是扩大其相对于Nvidia的内存优势.

发布时,192 GB的MI300X拥有H100 HBM3的两倍多,比即将推出的H200有51 GB的优势.

MI325X将加速器的容量提高到288 GB--是H200的两倍多,比NVIDIA在今年春天的GTC上展示的Blackwell芯片高出50%.

转向HBM3e还将MI325X的内存带宽提高到6TB/秒.

虽然MI300X的5.

3TB/秒和H200的1.

3倍都有不错的提升,但我们原本预计这个数字会接近8TB/秒-就像我们在NVIDIA的Blackwell图形处理器上看到的那样.

不幸的是,我们必须等到MI325X在今年晚些时候上市才能知道它的内存配置是怎么回事.

内存容量和带宽都已经成为人工智能推理的主要瓶颈.

正如我们多次讨论的那样,当以8位精度运行时,每10亿个参数需要大约1 GB的内存.

因此,你应该能够将2500亿个参数塞到一个MI325X上--或者更接近于8个GPU系统的2T十亿参数模型--并且仍然有空间缓存关键值.

除了在Computex之前的预报会上,AMD的高管吹嘘说,它的MI325X系统可以支持1万亿个参数模型.

那是怎么回事呢?AMD仍然专注于FP16,它每个参数需要的内存是FP8的两倍.

尽管在推出时,对FP8的硬件支持是MI300X的主要卖点,但AMD在其基准测试中通常专注于半精度性能.

去年年底,在与NVIDIA就AMD基准的准确性发生争执时,我们明白了其中的原因.

对于它的许多基准测试,AMD依赖于vLLM--一个推理库,它还没有对FP8数据类型提供可靠的支持.

这意味着,MI300X只能使用FP16.

除非AMD能够克服这一限制,否则在H200上以FP8运行的机型将需要两倍于MI325X的内存--失去了它原本可能获得的巨大288 GB容量的任何优势.

更重要的是,H200在FP8上的浮点性能将高于MI325X在FP16上的浮点性能.

当然,这不是一个苹果对苹果的比较.

但是,如果您主要关心的是让模型在尽可能少的GPU上运行,并且您不仅可以降低精度,还可以使浮点吞吐量翻一番,那么很难理解为什么不这样做.

尽管如此,坚持使用FP/BF16数据类型进行训练和推理仍然有一些好处.

正如我们在Gaudi3上看到的那样,英特尔的哈瓦那实验室实际上把16位性能放在了首位.

今年春天早些时候发布的Gaudi3拥有192 GB的HBM2e内存和双芯片设计,能够产生1.

8千万亿次高密度的FP8和FP16.

这使得它比H100/200领先1.

85倍,比MI300X/325X领先1.4倍.需要注意的是,Guadi3不支持稀疏性,而Nvidia和AMD的芯片支持.

然而,AMD和Intel都专注于密集浮点性能是有原因的:稀疏性在实践中并不常见.

当然,这可能并不总是正确的.

已经做出了相当大的努力ING稀疏模型-特别是关于NVIDIA和晶片规模的竞争者Cerebras.

至少在推断方面,对稀疏浮点运算的支持最终可能会对AMD和NVIDIA发挥优势.

与NVIDIA的H100和即将推出的H200相比,AMD的MI300X在浮点性能和内存带宽方面已经领先--其最新芯片扩大了这一领先优势.

但是,尽管AMD更愿意将其与Nvidia的Hopper-gen部件进行比较,但它们并不是它应该担心的.

更令人担忧的是Blackwell的部件,预计将于今年晚些时候开始陆续上市.

在其B200配置中,1,000W的Blackwell部件承诺高达4.

5千万亿次的高密度FP8和2.

25千万亿次的FP16性能,192 GB的HBM3e内存和8TB/秒的带宽.

AMD并没有忘记NVIDIA的Blackwell部件拥有优势,为了更好地竞争,Zen House正在着手每年发布一次新的本能加速器.

如果这听起来有点耳熟,那是因为--至少根据提供给投资者的文件--NVIDIA去年秋天也做了同样的事情.

AMD没有说太多关于它的下一代CDNA 4计算架构,但从我们所看到的很少,它将更好地与Blackwell结盟.

根据AMD的说法,CDNA 4将坚持与MI325X相同的288 GB HBM3e配置,但移动到3 nm的计算瓦片处理节点,并增加对FP4和FP6数据类型的支持-后者NVIDIA已经与Blackwell一起采用,新的数据类型可能有助于缓解AMD在FP8方面的一些挑战,因为FP4和FP6似乎不会受到同样缺乏标准化的影响.

你看,FP8有点乱,AMD和NVIDIA使用了截然不同的实现.

有了新的4位和6位浮点运算实现,这(希望)不会是一个大问题.

在2025年推出cdna 4‘S之后,AMD声称“cdna Next”--为了保持一致性,我们将把它称为CNDA 5--将带来“重大的架构升级”.

然而,这将带来什么,AMD不愿透露.

但如果高管最近的讨论可以作为参考的话,它可能会涉及到异质多芯片部署,甚至是光子存储器的扩展.

毕竟,AMD是支持Skestial AI的投资者之一,Skestial AI正在开发这项技术.