探索财经奥秘,指引财富未来

AI PC供应商必须拥有他们的TOPS -但这只是GHz战争的再次重演吗?

Tobias Mann 2024-06-13 18:06:49

对于芯片制造商来说,人工智能PC已经成为了一场争先恐后的竞赛--英特尔、AMD和高通都在试图超越其他公司.

正如我们上周了解到的那样,AMD的下一代Ryzen 300系列芯片将拥有50个NPU TOP,而英特尔的月球湖部件将提供48个NPU TOP.

与此同时,高通和苹果此前曾宣布,他们的NPU将分别进行45次和38次TOP.

从历史上看,这种营销方式非常有效--数字越大,我们客户越容易理解.

但是,就像时钟速度和内核的情况一样,它从来不像营销人员说的那么简单.

说到TOPS,这当然是真的.

最大的问题之一是,TOPS--你的芯片每秒可以处理多少万亿字节大小的操作--是它缺少了一条关键信息:精度.

这意味着16位精度的50个TOP与8位或4位精度的50个TOP是不同的.

通常,当我们谈论TOP时,它被假设为INT8或8位精度.

然而,随着较低的6位和4位数据类型变得越来越常见,它不再是既定的.

值得称赞的是,英特尔和AMD在澄清精确度方面做得更好,但对于试图做出明智决定的消费者来说,这仍然是一个潜在的困惑点.

即使假设声称的性能是以同样的精确度衡量的,TOPS只是影响人工智能性能的众多因素之一.

仅仅因为两个芯片在TOP或TFLOPS方面能够产生相似的性能,并不意味着他们真的可以利用它们.

例如,NVIDIA的A100和L40S-这两款芯片的额定产量分别为624和733密集的INT8 TOP.

显然,L40S的运行(推理)人工智能应用程序的性能会略好一些,对吗?嗯,事情没那么简单.

从技术上讲,L40S的速度更快,但它的内存速度要慢得多:864 GB/秒,而40 GB的A100‘S的带宽为1.

55TB/秒.

内存带宽对AI PC的重要性与对坚固的数据中心芯片的重要性不相上下,它对性能的影响可能比你想象的要明显得多.

看一下类似大型语言模型的东西,推理性能可以分为两个阶段:第一令牌延迟和第二令牌延迟.

对于聊天机器人来说,第一令牌延迟是它必须考虑你的问题多长时间才能开始回答.

这一步通常是计算受限的--这意味着TOP越多肯定越好.

同时,秒令牌延迟是聊天机器人响应的每个单词出现在屏幕上所需的时间.

这一步受到内存带宽的严重限制.

对于最终用户来说,这一阶段将更加明显--你将感受到聊天机器人每秒生成5个单词和一个可以生成20个单词的聊天机器人之间的区别.

这就是为什么苹果的M系列芯片被证明是运行本地LLM的伟大的小型机器.

他们的内存与SoC一起堆叠在一起,允许延迟和更高的带宽.

即使是像M1 Max这样的老芯片也出人意料地能够运行LLMS,因为它有400 GB/秒的内存带宽.

现在,我们开始看到更多的芯片制造商,如英特尔,在计算的同时封装内存.

英特尔即将推出的月球湖处理器将配备高达32 GB的LPDDR5x内存,运行速度为8500MT/秒,将支持四个16位通道.

当在设备上运行LLMS时,这应该会显著提高性能-但可能不会受到维修权倡导者的欢迎.

我们可以通过开发可以以较低精度运行的型号来帮助减轻内存压力-例如,通过将它们量化到4位重量.

这也有一个好处,那就是减少了在内存中适应模型所需的内存量.

然而,我们要么需要更小、更灵活的模型,要么需要更大的内存来适应它们.

不知怎么的,到2024年,我们仍在出货配备8 GB内存的PC--如果你想在你的PC上运行更多最小的型号,这将是相当紧张的.

一般来说,4位量化模型每10亿个参数大约需要512MB-对于LLama3-8B这样的模型,大约需要4 GB的内存,我们可以使用较小的型号,如谷歌的Gema-2B,但更有可能的是,在任何给定的时间,我们的系统上都会运行几个型号.

因此,你能用你的AI PC做什么,不仅取决于机顶和内存带宽,还取决于你有多少内存.

如果模型处于非活动状态超过一段时间,你可以将它们挂起到磁盘上,但这样做会在恢复时导致性能下降--因为模型会重新加载到内存中--所以你还需要非常快的固态硬盘.

在一个日益移动的计算世界里,电力是一个主要因素--这个因素并不总是得到明确解决.

拿两个能够产生大约50个TAP的芯片.

如果一个耗电10瓦,另一个耗电5瓦,你会注意到电池消耗的差异,尽管从纸面上看,它们的性能应该是相似的.

同样,如果一个芯片能产生25个陀螺,但只需要3瓦,那么它将耗费更少的电能,即使耗时是在10瓦时生产50个陀螺的两倍.

简而言之,许多因素将与你的芯片能喷出多少个陀螺同等重要,如果不是更重要的话.

这并不是说顶部不重要.

他们是这样做的.

每一代英伟达、AMD和英特尔都在更努力地推动他们的芯片,这是有原因的.

更多的桌面意味着您可以处理更大的问题,或者更快地解决相同的问题.

但与大多数系统一样,仔细平衡内存、计算、I/O和功耗对于实现您的AI PC所需的性能特征至关重要.

不幸的是,传达这些信息要比指向一个更大的TOPS数字要难得多--所以我们似乎注定要重演一次GHz战争.