AMD推出MI325 X，这是一款288 GB人工智能加速器，旨在对抗Nvidia的H200

Tobias Mann 2024-06-03 11:35:59

Computex AMD的旗舰AI加速器MI325X将在今年晚些时候上市，届时将获得高带宽提升.

这一消息发布之际，AMD遵循了Nvidia的模式，并过渡到其“本能”系列加速器的年度发布节奏.

本能MI325X，至少从我们可以看出，很像Nvidia的H200，因为它是HBM3e增强版本，我们在AMD 2023年12月的Advance AI活动上详细介绍了它的GPU.

但该部件是我们迄今看到的最复杂的部件之一-由8个计算芯片、4个I/O芯片和8个内存芯片组成，使用2.

5D和3D封装技术的组合缝合在一起.

从我们所看到的情况来看，支持即将到来的芯片的CDNA 3 GPU瓷砖似乎没有发生重大变化-至少在失败方面没有变化.

该芯片仍然拥有1.

3千万亿次的密集BF/FP16性能，或者当下降到FP8时，2.

6千万亿次浮点的性能.

需要明确的是，在任何给定的精度上，MI325X仍然比H200快.

AMD的重点似乎是扩大其相对于Nvidia的内存优势.

发布时，192 GB的MI300X拥有H100 HBM3的两倍多，比即将推出的H200有51 GB的优势.

MI325X将加速器的容量提高到288 GB--是H200的两倍多，比NVIDIA在今年春天的GTC上展示的Blackwell芯片高出50%.

转向HBM3e还将MI325X的内存带宽提高到6TB/秒.

虽然MI300X的5.

3TB/秒和H200的1.

3倍都有不错的提升，但我们原本预计这个数字会接近8TB/秒-就像我们在NVIDIA的Blackwell图形处理器上看到的那样.

不幸的是，我们必须等到MI325X在今年晚些时候上市才能知道它的内存配置是怎么回事.

内存容量和带宽都已经成为人工智能推理的主要瓶颈.

正如我们多次讨论的那样，当以8位精度运行时，每10亿个参数需要大约1 GB的内存.

因此，你应该能够将2500亿个参数塞到一个MI325X上--或者更接近于8个GPU系统的2T十亿参数模型--并且仍然有空间缓存关键值.

除了在Computex之前的预报会上，AMD的高管吹嘘说，它的MI325X系统可以支持1万亿个参数模型.

那是怎么回事呢？AMD仍然专注于FP16，它每个参数需要的内存是FP8的两倍.

尽管在推出时，对FP8的硬件支持是MI300X的主要卖点，但AMD在其基准测试中通常专注于半精度性能.

去年年底，在与NVIDIA就AMD基准的准确性发生争执时，我们明白了其中的原因.

对于它的许多基准测试，AMD依赖于vLLM--一个推理库，它还没有对FP8数据类型提供可靠的支持.

这意味着，MI300X只能使用FP16.

除非AMD能够克服这一限制，否则在H200上以FP8运行的机型将需要两倍于MI325X的内存--失去了它原本可能获得的巨大288 GB容量的任何优势.

更重要的是，H200在FP8上的浮点性能将高于MI325X在FP16上的浮点性能.

当然，这不是一个苹果对苹果的比较.

但是，如果您主要关心的是让模型在尽可能少的GPU上运行，并且您不仅可以降低精度，还可以使浮点吞吐量翻一番，那么很难理解为什么不这样做.

尽管如此，坚持使用FP/BF16数据类型进行训练和推理仍然有一些好处.

正如我们在Gaudi3上看到的那样，英特尔的哈瓦那实验室实际上把16位性能放在了首位.

今年春天早些时候发布的Gaudi3拥有192 GB的HBM2e内存和双芯片设计，能够产生1.

8千万亿次高密度的FP8和FP16.

这使得它比H100/200领先1.

85倍，比MI300X/325X领先1.4倍.需要注意的是，Guadi3不支持稀疏性，而Nvidia和AMD的芯片支持.

然而，AMD和Intel都专注于密集浮点性能是有原因的：稀疏性在实践中并不常见.

当然，这可能并不总是正确的.

已经做出了相当大的努力ING稀疏模型-特别是关于NVIDIA和晶片规模的竞争者Cerebras.

至少在推断方面，对稀疏浮点运算的支持最终可能会对AMD和NVIDIA发挥优势.

与NVIDIA的H100和即将推出的H200相比，AMD的MI300X在浮点性能和内存带宽方面已经领先--其最新芯片扩大了这一领先优势.

但是，尽管AMD更愿意将其与Nvidia的Hopper-gen部件进行比较，但它们并不是它应该担心的.

更令人担忧的是Blackwell的部件，预计将于今年晚些时候开始陆续上市.

在其B200配置中，1,000W的Blackwell部件承诺高达4.

5千万亿次的高密度FP8和2.

25千万亿次的FP16性能，192 GB的HBM3e内存和8TB/秒的带宽.

AMD并没有忘记NVIDIA的Blackwell部件拥有优势，为了更好地竞争，Zen House正在着手每年发布一次新的本能加速器.

如果这听起来有点耳熟，那是因为--至少根据提供给投资者的文件--NVIDIA去年秋天也做了同样的事情.

AMD没有说太多关于它的下一代CDNA 4计算架构，但从我们所看到的很少，它将更好地与Blackwell结盟.

根据AMD的说法，CDNA 4将坚持与MI325X相同的288 GB HBM3e配置，但移动到3 nm的计算瓦片处理节点，并增加对FP4和FP6数据类型的支持-后者NVIDIA已经与Blackwell一起采用，新的数据类型可能有助于缓解AMD在FP8方面的一些挑战，因为FP4和FP6似乎不会受到同样缺乏标准化的影响.

你看，FP8有点乱，AMD和NVIDIA使用了截然不同的实现.

有了新的4位和6位浮点运算实现，这(希望)不会是一个大问题.

在2025年推出cdna 4‘S之后，AMD声称“cdna Next”--为了保持一致性，我们将把它称为CNDA 5--将带来“重大的架构升级”.

然而，这将带来什么，AMD不愿透露.

但如果高管最近的讨论可以作为参考的话，它可能会涉及到异质多芯片部署，甚至是光子存储器的扩展.

毕竟，AMD是支持Skestial AI的投资者之一，Skestial AI正在开发这项技术.

热门排行

AMD推出MI325 X，这是一款288 GB人工智能加速器，旨在对抗Nvidia的H200

相关文章