AI PC供应商必须拥有他们的TOPS -但这只是GHz战争的再次重演吗？

2024-06-13 无

对于芯片制造商来说，人工智能PC已经成为了一场争先恐后的竞赛--英特尔、AMD和高通都在试图超越其他公司.

正如我们上周了解到的那样，AMD的下一代Ryzen 300系列芯片将拥有50个NPU TOP，而英特尔的月球湖部件将提供48个NPU TOP.

与此同时，高通和苹果此前曾宣布，他们的NPU将分别进行45次和38次TOP.

从历史上看，这种营销方式非常有效--数字越大，我们客户越容易理解.

但是，就像时钟速度和内核的情况一样，它从来不像营销人员说的那么简单.

说到TOPS，这当然是真的.

最大的问题之一是，TOPS--你的芯片每秒可以处理多少万亿字节大小的操作--是它缺少了一条关键信息：精度.

这意味着16位精度的50个TOP与8位或4位精度的50个TOP是不同的.

通常，当我们谈论TOP时，它被假设为INT8或8位精度.

然而，随着较低的6位和4位数据类型变得越来越常见，它不再是既定的.

值得称赞的是，英特尔和AMD在澄清精确度方面做得更好，但对于试图做出明智决定的消费者来说，这仍然是一个潜在的困惑点.

即使假设声称的性能是以同样的精确度衡量的，TOPS只是影响人工智能性能的众多因素之一.

仅仅因为两个芯片在TOP或TFLOPS方面能够产生相似的性能，并不意味着他们真的可以利用它们.

例如，NVIDIA的A100和L40S-这两款芯片的额定产量分别为624和733密集的INT8 TOP.

显然，L40S的运行(推理)人工智能应用程序的性能会略好一些，对吗？嗯，事情没那么简单.

从技术上讲，L40S的速度更快，但它的内存速度要慢得多：864 GB/秒，而40 GB的A100‘S的带宽为1.

55TB/秒.

内存带宽对AI PC的重要性与对坚固的数据中心芯片的重要性不相上下，它对性能的影响可能比你想象的要明显得多.

看一下类似大型语言模型的东西，推理性能可以分为两个阶段：第一令牌延迟和第二令牌延迟.

对于聊天机器人来说，第一令牌延迟是它必须考虑你的问题多长时间才能开始回答.

这一步通常是计算受限的--这意味着TOP越多肯定越好.

同时，秒令牌延迟是聊天机器人响应的每个单词出现在屏幕上所需的时间.

这一步受到内存带宽的严重限制.

对于最终用户来说，这一阶段将更加明显--你将感受到聊天机器人每秒生成5个单词和一个可以生成20个单词的聊天机器人之间的区别.

这就是为什么苹果的M系列芯片被证明是运行本地LLM的伟大的小型机器.

他们的内存与SoC一起堆叠在一起，允许延迟和更高的带宽.

即使是像M1 Max这样的老芯片也出人意料地能够运行LLMS，因为它有400 GB/秒的内存带宽.

现在，我们开始看到更多的芯片制造商，如英特尔，在计算的同时封装内存.

英特尔即将推出的月球湖处理器将配备高达32 GB的LPDDR5x内存，运行速度为8500MT/秒，将支持四个16位通道.

当在设备上运行LLMS时，这应该会显著提高性能-但可能不会受到维修权倡导者的欢迎.

我们可以通过开发可以以较低精度运行的型号来帮助减轻内存压力-例如，通过将它们量化到4位重量.

这也有一个好处，那就是减少了在内存中适应模型所需的内存量.

然而，我们要么需要更小、更灵活的模型，要么需要更大的内存来适应它们.

不知怎么的，到2024年，我们仍在出货配备8 GB内存的PC--如果你想在你的PC上运行更多最小的型号，这将是相当紧张的.

一般来说，4位量化模型每10亿个参数大约需要512MB-对于LLama3-8B这样的模型，大约需要4 GB的内存，我们可以使用较小的型号，如谷歌的Gema-2B，但更有可能的是，在任何给定的时间，我们的系统上都会运行几个型号.

因此，你能用你的AI PC做什么，不仅取决于机顶和内存带宽，还取决于你有多少内存.

如果模型处于非活动状态超过一段时间，你可以将它们挂起到磁盘上，但这样做会在恢复时导致性能下降--因为模型会重新加载到内存中--所以你还需要非常快的固态硬盘.

在一个日益移动的计算世界里，电力是一个主要因素--这个因素并不总是得到明确解决.

拿两个能够产生大约50个TAP的芯片.

如果一个耗电10瓦，另一个耗电5瓦，你会注意到电池消耗的差异，尽管从纸面上看，它们的性能应该是相似的.

同样，如果一个芯片能产生25个陀螺，但只需要3瓦，那么它将耗费更少的电能，即使耗时是在10瓦时生产50个陀螺的两倍.

简而言之，许多因素将与你的芯片能喷出多少个陀螺同等重要，如果不是更重要的话.

这并不是说顶部不重要.

他们是这样做的.

每一代英伟达、AMD和英特尔都在更努力地推动他们的芯片，这是有原因的.

更多的桌面意味着您可以处理更大的问题，或者更快地解决相同的问题.

但与大多数系统一样，仔细平衡内存、计算、I/O和功耗对于实现您的AI PC所需的性能特征至关重要.

不幸的是，传达这些信息要比指向一个更大的TOPS数字要难得多--所以我们似乎注定要重演一次GHz战争.

热门排行