探索财经奥秘,指引财富未来

Nvidia在科学计算领域的未来取决于人工智能和高性能计算的融合

admin 2024-05-25 13:43:54

分析:NVIDIA上周在汉堡举行的国际超级计算展上表现出色.

NVIDIA的GH200跻身10台最强大的知名超级计算机之列,而CPU-GPU弗兰克芯片在能效奖的Green500中占据主导地位.

但如果NVIDIA的下一代Blackwell加速器值得一试的话,那么它在HPC上的优势可能是短暂的.

在GTC上发布的NVIDIA,无论是从需求还是从温度来看,这些部件都是既快又热.

它的GB200超级芯片能够产生40千万亿次的4位精度峰值性能,同时消耗2700W的功率.

难怪该芯片需要液体冷却.

这一部分足够引人注目,以至于亚马逊直接放弃了Nvidia的第一代超级芯片,转而使用Blackwell变种,为其即将到来的Ceiba AI超级计算机提供动力.

但是,尽管NVIDIA的Blackwell GPU是人工智能圈中的明星,但在更传统的双精度(FP64)HPC工作负载上,它在纸面上看起来并不那么好.

NVIDIA的GB200超级芯片最高可达FP64,只能处理大约90万亿次浮点运算,即每个GPU大约45万亿浮点运算.

这使得布莱克韦尔在处理FP64矩阵数学方面比霍珀慢了大约32%.

NVIDIA向我们保证,尽管最初被排除在规格表之外,但该芯片实际上支持FP64向量数学.

而且,在45万亿次浮点运算的情况下,它比Hopper快大约32%.

与上一代相比,布莱克韦尔的双精度性能有点喜忧参半,但所有这些都改变不了一个事实,即在高精度工作负载下,布莱克韦尔无法与AMD的MI300 APU和GPU相提并论.

早在去年12月发布,这些部件在两倍精度下的速度比NVIDIA的Blackwell GPU快2.7倍到3.6倍,而功耗只有NVIDIA的一小部分.

这告诉我们,基于Blackwell的系统如果想要在Top500的S旗舰高性能Linpack基准测试中竞争,就需要比同等的MI300系统大得多.

话虽如此,这是板上钉钉的事情:Blackwell显然没有考虑到双精度的设计.

Fp64的性能根本不是赚钱的地方.

超级计算集群之所以这样命名,是因为它们很大.

与用来训练人工智能模型的GPU集群相比,除了最大的超级计算机之外,所有的超级计算机都显得微不足道.

然而,仅仅因为布莱克韦尔不是FP64怪物并不意味着NVIDIA正在将HPC市场拱手让给AMD.

NVIDIA加速数据中心小组的负责人迪翁·哈里斯告诉The Register:“我们非常关心科学计算.

”当我们在内部进行讨论时,我们总是被提醒,我们的许多最大的创新来自我们的科学计算社区的开发人员.

哈里斯认为,为了解决一些最大和最具挑战性的科学困境,我们不能再仅仅用双精度咕噜声来强行解决这个问题.

哈里斯说,这并不是说高估了FP64的性能.

“FP64很重要,也很有用,但我们认为它只是你需要的工具之一,你需要去解决许多这样的大规模挑战.

”正如高性能计算社区喜欢说的那样,高性能计算是一种工作负载,它并不自动意味着FP64,特别是在当今.

在500强排行榜上有一个混合精度基准是有原因的.

HPL只是不能代表每个工作负载.

尽管一些模拟确实需要尽可能多的浮点精度,但并不是所有的模拟都需要.

事实上,一些经典的HPC工作负载,如气象预报,已经被证明在以单精度甚至半精度运行时相当有效.

欧洲中期天气预报中心和布里斯托尔大学多年来一直在探索低精度HPC的概念.

当然,还有将低精度人工智能与高精度模拟相结合的概念,以减少数据密集型工作负载的计算负荷.

例如,你可以以高精度模拟复杂或短暂的现象,然后使用生成的数据来训练预期行为的模型.

然后,这个模型可以用来对于最有希望的数据点,以低精度快速处理堆积如山的数据.

现在,并不是每个HPC工作负载都将转换为这种方法,而且肯定不是在没有相当大的努力的情况下.

话虽如此,哈里斯指出,一些工作量正在显示出希望,包括材料科学,甚至是Cadence和Ansys等人倡导的那种工业HPC应用程序.

NVIDIA今天的成功植根于HPC社区的经验教训.

人们很容易忘记,NVIDIA并不是一夜之间成为人工智能基础设施巨头的.

就在不久前,NVIDIA的主要关注点还在于设计能够以更快的速度在屏幕上推送更多像素的显卡.

NVIDIA在数据中心的崛起在很大程度上要归功于从采用这些显卡并试图在其上大规模运行应用程序的艰难经验中吸取的教训.

2012年底,NVIDIA的K20图形处理器总共18,688个,将橡树岭国家实验室的泰坦超级计算机推到了500强的榜首.

正如我们的兄弟网站The Next Platform之前所讨论的那样,要做到这一点是一条漫长而曲折的道路.

当时,GPU在超级计算领域还是一个非常新的概念,很多代码都没有针对GPU加速进行优化.

NVIDIA及其合作伙伴投入了大量精力来克服这些障碍并发现优化.

哈里斯表示,混合精度模拟和将人工智能注入HPC工作负载也是如此.

展望未来,NVIDIA的首要任务是利用其加速器解决最广泛的问题,从推动人工智能的模糊数学到模拟传统上所依赖的高精度浮点数学.

至于该公司在科学计算领域的持续相关性,似乎将完全取决于它能以多快的速度促进软件范式的采用,使人工智能和高性能计算的融合成为可能.