分析:凭借与ARM服务器处理器设计公司安培计算的新合作伙伴关系,高通正在慢慢地将自己打造成人工智能基础设施初创企业最好的朋友.
在周四安培的年度战略和路线图更新期间,两家公司宣布了一款2U机器,其中包括8个用于执行机器学习推理的高通AI 100超级加速器和192个安培CPU核心.
“在一个典型的12.
5千瓦的机架上,这相当于托管多达56个人工智能加速器和1,344个计算核心,同时不需要昂贵的液体冷却,”安培和它的合作伙伴甲骨文不遗余力地证明,在许多流行的聊天机器人背后运行大型语言模型(LLM)是完全可能的,只要你适当设置你的期望.
我们已经详细地探讨了这个概念,但简单地说,有限的内存带宽意味着CPU通常最适合运行大小在70亿到80亿个参数之间的较小模型,通常只有在较小的批处理大小-也就是说,更少的并发用户.
这就是高通的AI 100加速器发挥作用的地方,因为它们更高的内存带宽允许它们处理更大模型或更大批处理大小的推理.
请记住,推理涉及在整个模型上运行运算.
如果LLM的大小是4 GB、8 GB或32 GB,那么每次你想从提示符生成下一部分句子或源代码时,都需要重复计算大量的数字.
当谈到数据中心的人工智能芯片时,高通并不是一个经常出现的名字.
大部分注意力集中在图形处理器巨头Nvidia上,剩下的注意力集中在英特尔的Gaudi和AMD的Instsitive产品线上.
相反,高通吸引的大部分注意力都集中在其人工智能手机和笔记本电脑战略上.
然而,这并不是说高通在数据中心没有存在.
事实上,其AI 100系列加速器已经存在多年,其最新的超系列部件于去年秋天首次亮相.
这款加速器是一款纤薄的单插槽PCIe卡,旨在对LLM进行推理.
与经常出现在新闻头条上的AMD和NVIDIA的600W和700W怪物相比,150W的显卡对电力的要求相当平静.
尽管它的外形因素很薄,功耗相对较低,但高通声称,单个AI 100 Ultra能够运行1000亿个参数模型,而它们可以耦合到一起支持GPT-3比例模型(1750亿个参数).
在推理性能方面,64核显卡以INT8的精度推送870个最高[PDF],并采用128 GB的LPDDR4x内存,带宽为548 GB/S.
内存带宽是将AI推理扩展到更大批量的主要因素.
生成第一个令牌,对于聊天机器人,我们体验到的是提交提示和出现响应的第一个单词之间的延迟,通常是计算限制的.
然而,除此之外,生成的每个后续单词往往都受到内存的限制.
这是AMD和NVIDIA等GPU供应商一直在转向速度更快的HBM3和HBM3e内存的更大内存的部分原因.
这两个硅芯片的最新芯片的内存带宽超过5TB/S,大约是高通芯片的十倍.
为了克服其中一些限制,高通严重依赖软件优化,采用了推测解码和微缩放格式(MX)等技术.
如果你不熟悉,推测解码使用一个小的、轻量级的模型来生成初始响应,然后使用更大的模型来检查和纠正其准确性.
从理论上讲,这种组合可以提高AI应用程序的吞吐量和效率.
与此同时,MX6和MX4等格式旨在减少模型的内存占用.
从技术上讲,这些格式是一种量化形式,它将模型权重压缩到较低的精度,从而减少了所需的存储容量和带宽.
高通声称,通过将MX6和推测解码相结合,这些技术可以实现比FP16基线提高四倍的吞吐量.
Pere,高通为更大规模的人工智能推理提供了Nvidia GPU的替代方案,后者已经与其CPU一起工作.
安培并不是唯一一家与高通合作解决人工智能推理的公司.
在这个谜题中,还有一个尚未解决的问题:培训.
WaferScale人工智能初创公司Cerebras是安培AI平台联盟的另一成员,该公司早在3月份就宣布与高通合作,同时推出WSE-3芯片和CS-3系统.
Cerebras在人工智能基础设施供应商中是独一无二的,原因有很多,最明显的原因是,他们的芯片真的有餐盘大小,现在每个公司都拥有90万个内核和44 GB的SRAM--不,这不是打字错误.
尽管Cerebra的WaferScale芯片可能令人印象深刻,但它们是为培训模型而设计的,而不是运行模型.
这并不像看起来那么令人头疼.
与其说推理是一项针对供应商的工作,不如说是培训.
这意味着,在Cerebra的CS-2或3集群上训练的模型可以部署在任意数量的加速器上,只需最少的调整.
与高通的不同之处在于,这两个加速器正在发挥生态系统的作用.
正如我们当时所说的那样,Cerebras正在努力训练更小、更准确和更高性能的模型,这些模型可以充分利用高通在投机性解码、稀疏推理和MX量化方面的软件优化.
奇怪的是,高通并没有被列为人工智能平台联盟的成员,至少现在还没有.
话虽如此,高通的AI 100超级加速器已经上市,这可能意味着它们只是一个权宜之计,而联盟中其他规模较小的参与者正在追赶.
在这方面,AI平台联盟有许多成员正在研究处于不同商业化阶段的推理加速器.
我们遇到的其中一个更有趣的是Furiosa-是的,这是一个疯狂的Max的参考.
这家芯片初创公司甚至有一个代号为WarBoy的计算机视觉加速器,如果有人怀疑的话,Furiosa的第二代加速器代号为RNGD-发音为Renegade,因为在后AI世界,谁需要元音-它基于台积电5 nm工艺,拥有高达512万亿次浮点的8位性能或1,024个INT4最高.
因此,对于可以利用较低4位精度的工作负载来说,150W芯片比高通的AI 100略有优势.
该芯片真正的额外好处是48 GB的HBM3内存,虽然容量低于高通的部分,但1.
5TB/S的带宽几乎是高通的三倍,我们将拭目以待.
然而,AI平台联盟的关键收获似乎是存在的,这样单个初创公司就可以专注于处理他们最擅长的人工智能领域的任何方面,而在其他方面依赖于其他公司,无论是通过直接合作还是标准化.
同时,高通似乎在这个过程中结识了一些新朋友.
由于Armv9指令集架构引入的架构改进,安培对高通在更大型号和更大批量上的依赖可能是短暂的.
该CPU供应商为其Ampere One系列处理器开发的定制核心使用了较旧的v8和较新的v9架构的元素.
据我们所知,v9-A规范引入了可伸缩矩阵扩展2(SME2)支持,旨在加速机器学习工作负载中常见的矩阵数学类型.
然而,目前我们被告知,安培目前的芯片正在使用其两个128位向量单元处理人工智能推理任务.
因此,我们有理由相信安培和其他公司未来的ARM兼容芯片可能会使用SME2.
事实上,在客户端,苹果新的M4 SoC与ARMv9兼容,注册中心从可靠的消息来源了解到,它与SME2加速兼容.
实际上,高通是最早在其一些骁龙系统芯片上采用ARMv9的公司之一.
然而,芯片业务似乎回到了ARMv8,当使用其收购的Nuvia的CPU设计时,我们毫不怀疑的决定已经成为与ARM的争论点.
而ARM则希望它的客户 高通选择了带有SME 2的v9进行基于MCU的人工智能推理,但它却认为v8可以将推理从中央处理器卸载到另一个处理单元.
在数据中心领域,无论Armv 9还是SME 2,内存带宽都将仍然是一个瓶颈.
引入更快的多路转换器组合队列(MCR)DISYS应该会有所帮助,它有12个通道平台能够实现825 GB/s的带宽.
,正如我们从英特尔的酷睿6演示中看到的那样,这种带宽的提升应该允许高达700亿个参数的模型在单个中央处理器上以4位精度合理运行. .