探索财经奥秘,指引财富未来

Arm就是这样,在这场人工智能加速器热潮中

Chris Williams 2024-05-30 16:35:55

Analyst ARM本周宣布推出新的高端CPU和GPU设计,为笔记本电脑、智能手机和类似的个人电子产品的系统芯片做好准备.

预计至少到2024年底,这些核心将为下一代Android手机提供动力.

这些声明涉及一系列主题,其中一些在营销中显而易见,另一些则不明显.

在我们看来,ARM发布了去年接替Cortex-X4的位ARMv9.

2 Cortex-A925CPU内核.

X925的时钟频率可以达到3.

8 GHz,可以瞄准3 nm的处理节点,根据ARM的说法,在一个公平的竞争环境中,执行指令的速度至少比X4快15%.

我们被告知,CPU有各种架构上的改进,比如L1指令和数据缓存带宽翻了一番,指令窗口大小翻了一番,预取和分支预测更好-这是性能的关键驱动因素-以及更广泛的微体系结构(例如,四条加载流水线而不是三条,整数乘法执行增加了一倍,以及SIMD/FP发布队列增加了一倍).

所有让CPU设计者感到兴奋的东西.

对于用户来说,关键是ARM相信使用X925的设备在实际使用中将比去年的硬件获得36%的峰值单核性能提升,下降到大约30%的混合工作负载的平均性能提升.

X925的目的是成为未来设备中主要的强大的应用核心或更大的核心.

LITTLE CPU集群,总共最多14个核心.

如何配置该集群取决于从ARM获得这项技术许可证的片上系统设计师.

群集中的其他CPU核心可以是新的中端Cortex-A725和更小、更高效的A520.

X925可以有高达3MB的专用二级缓存,而A725可以有1MB的二级缓存.

我们被告知,集群管理系统也进行了调整,以提供节能.

然后是新的不朽-G925 GPU,芯片设计者可以授权并添加到他们的处理器中.

14核G720集群的性能应该比12核G720的前身大约30%或更高.

据说,GPU及其驱动程序已经过优化,以促进游戏和图形应用程序中的机器学习任务,特别是那些使用Unity构建的应用程序.

据ARM称,G925具有一些有趣的硬件级加速,可以减少基于CPU的渲染线程需要完成的工作量.

这包括GPU内对象分类,避免在屏幕上绘制隐藏的东西,以及同样更好的隐藏表面去除.

这应该会提高性能并减少能源消耗,这对电池供电的设备是有利的.

它还对硬件光线跟踪进行了优化,在一个集群中支持多达24个GPU内核,并改进了分层和作业调度,以利用增加的GPU内核.

总而言之,ARM推出了更多ARM CPU和GPU内核,并一如既往地承诺提高性能和效率,这意味着下一批Android手机将运行得更快,而且不会消耗太多电池.

我们将等待实际硬件的独立审查和基准测试.

通常,芯片上系统设计者会授权ARM的核心和其他部件集成到他们的处理器中.

然后,在进行了几轮测试、验证和优化后,这些芯片设计者将最终布局交给工厂制造并投入设备中.

去年,ARM开始提供其核心的预焙设计--物理实现--这些核心已经通过了选定的FAB的优化和验证.

这些设计作为数据中心级处理器的Neoverse计算子系统提供.

这是为服务器芯片设计者提供了一种在制造高性能组件方面先发制人的方式.

现在ARM已经对个人或客户端设备采取了这种摇摆和烘焙的方法,并将在客户端计算子系统的旗帜下提供上述新的Cortex CPU和Immortalis GPU核心设计的完整物理实现.

这些设计是在台积电和三星的帮助下制作的,特别是瞄准这些晶圆厂的3纳米工艺节点.

同样,我们的想法是,芯片设计师授权这些物理实现在他们的处理器芯片上包含在内,并使用台积电或三星在制造具有竞争力的高端PC和移动处理器方面抢占先机.

在ARM看来,这也是必要的,因为低于7纳米的规模将带来工程挑战,而这些挑战不是芯片上系统设计师简单地解决得了的.

核心缓存中的DRAM,以及将信号从芯片的一个部分传输到另一个部分的微小导线,不像它们那样容易地缩小到3 nm,至少我们被告知是这样的.

除非你在微体系结构层面得到适当的扩展,否则最终的芯片可能不会像预期的那样运行.

这导致ARM在FABS本身的帮助下,为其3 nm的核心提供了这些优化的物理蓝图,以帮助处理器设计者避免ARM员工所说的达到3 nm的痛点.

这离让ARM全力以赴地为其客户设计整个芯片又近了一步,尽管我们感觉这家企业仍然没有准备好或愿意进入这种领域.

我们理解ARM的许可方没有必要也没有必要使用计算子系统.

他们可以像往常一样许可和集成核心,但他们必须自己进行所有的调整和优化,并找到一种方法来克服3 nm的扩展问题,而不会影响核心性能.

此外,授权厂商如果选择CPU核心,也不一定要使用ARM的GPU.

我们被告知,这里没有要么接受要么放弃的情况或类似的情况.

正如我们所说,这很有趣,但并不完全是革命性的:ARM已经为Neoverse提供了这种预先烘焙的设计IP.

它现在只是将这种方法扩展到客户级芯片,这是事情开始变得有点混乱的地方,也是ARM必须谨慎定位的地方.

ARM将其CPU和GPU设计授权给片上系统设计人员,他们自己可以在自己的处理器中包括自己的AI代码定制硬件加速单元.

这些单元通常加快矩阵乘法和其他对运行神经网络至关重要的运算的执行速度,轻松地将这些工作从CPU和GPU核心中分离出来,通常被称为NPU或神经处理单元.

从高通到谷歌,ARM的授权厂商喜欢在他们的处理器中加入自己的人工智能加速,因为这有助于这些设计师将他们的产品区分开来.

ARM不想太多地触动人们的脚趾,并公开表示它不喜欢这种定制加速.

ARM的工作人员反复向我们强调,它并不是反NPU.

,但ARM告诉我们,至少在Android上,由应用程序完成的人工智能推理中,70%通常运行在设备的CPU内核上,而不是NPU(如果有)或GPU上.

大多数应用程序代码只是在CPU核心上抛出神经网络和其他ML操作.

发生这种情况的原因有很多,我们认为其中之一是应用程序制造商不想对设备中的硬件做出任何假设.

如果有可能使用一个自动检测可用加速并使用它的框架,那很好,但总的来说:推理停留在CPU上.

当然,第三方应用程序,如谷歌自己的移动软件,预计将利用已知的内置加速,如谷歌在其Pixel系列手机中使用的张量牌NPU.

这里是主要的事情:我们采访的ARM员工希望看到80%到90%的人工智能推理在CPU内核上运行.

首先,这将避免第三方应用错过第一方应用享受的加速.

这是因为,至关重要的是,这种方法简化了开发人员的环境:在CPU核上运行人工智能工作是可以的,因为现代ARM CPU核,如上面的新Armv9.

2 Corcores,包括在CPU ISA级别对AI操作的加速.

具体地说,我们谈论的是ARMv9的S可扩展矩阵扩展及其可扩展向量扩展指令.

ARM非常希望芯片设计人员迁移到使用ARMv9的芯片,这将为CPU带来更多的神经网络加速S艾德.

这就是ARM对高通公司不满的原因,高通公司坚持使用ARMv8(带有霓虹灯),并为其最新的Nuvia派生的骁龙系统芯片定制NPU.

一方面,苹果在其最新的M4芯片中使用Armv9和SME2,另一方面,高通和其他公司坚持使用NPU.

如果没有这种碎片化,ARM会更高兴.

因此,这将我们带到KlediAI,一个方便的开源库ARM已经提供,仍在开发中,据说正在向LLM推理驱动程序Llama.

cpp等项目上行,它为现代ARM体系结构上所有潜在的CPU级加速提供了一个标准接口.

这张简报幻灯片最好地说明了这一点:最终的想法是,应用程序开发人员将不必使用任何新的框架或API,也不需要做出任何假设.

他们只是继续使用他们已经在使用的引擎.

这些引擎将有望整合KlediAI,以便在运行时根据所使用的设备自动选择合适的CPU级别的加速,并且AI操作可以由CPU核心高效地处理,而不必将工作转移到GPU或NPU.

我们被引导相信,将工作转移到SME2或SVE2比霓虹灯更可取.

ARM表示,它并不是针对NPU,它可以看到将某些任务转移到定制单元的好处.

但我们的印象是,ARM已经受够了对人工智能加速器的炒作,以及人工智能推理只能由定制单元正确执行的概念.

对于90%的应用程序,ARM宁愿你使用它的CPU核心和SME2等扩展来运行你的神经网络.

这意味着更多的芯片设计师从ARM那里获得更多现代CPU核心的授权.