赞助特写阅读这一注册采访,了解苏黎世理工学院的Onur Mutlu教授对我们应该部署的计算体系结构的看法,以满足下一代需求.
注册:如果我们看看当今计算体系结构的工作方式,这种模型的挑战和缺点是什么?Onur Mutlu教授:我们今天设计计算系统的方式存在重大问题.
其中最大的一个是,尽管数据集在增长,我们正在尝试用它们做更复杂的事情,但进行实际计算的组件在系统中只占很小的一部分.
如果以一个典型节点为例,超过98%的节点专门用于存储、控制和移动数据,而对数据进行操作的处理器只占其中非常小的一部分.
我们设计系统的方式非常以处理器为中心.
处理器是王,所有的东西都必须移到处理器上,这样你才能进行计算.
存储系统、存储系统和互连并不是有效的组件,它们可以高效地进行计算.
当你不断地在处理器和内存或存储子系统之间移动数据时,这是一个主要的瓶颈.
REG:这如何适应数据密集型应用程序的时代?OM:越来越多的情况是,我们有来自机器学习和基因组学等应用程序的数TB数据要存储.
我们和谷歌一起做了一项研究,我们研究了大型机器学习模型,这些模型使用了机器学习加速器,我们发现超过90%的系统总能量实际上花在了访问内存上.
这既会导致能源问题,也会导致性能问题.
硬件的大部分潜力都被浪费了,这也导致了可持续性问题.
所有这些只用于存储数据的处理硬件加起来会浪费大量的碳.
雷格:有没有以更好的方式完成这项工作的余地?奥姆:我相信在未来,内存和存储应该、也将更紧密地结合在一起.
它们也将更加活跃,因此,例如,当处理器需要执行工作负载的数据密集型部分时-例如具有数据密集型推理的大型语言模型-它将该功能卸载到内存.
然后,结果被返回给处理器,允许它继续处理其他事情.
有了这个模型,一切都可以更协作地工作,以更高效、更高效的方式解决问题.
REG:哪种应用程序从这种方法中受益最大?OM:我们谈论的是以数据为中心的应用程序,如基因组学,或机器学习的培训和推理.
您可以为每个存储节点分配存储节点,并根据应用程序的需要动态变化.
通过包含数据并在存储系统中进行处理,您可以创建巨大的能效.
今天的计算机并不节能.
如此多的能量被浪费在将数据从内存移动到处理器上,仅仅是为了非常简单的计算.
我称之为数据移动的隐藏成本.
我们正试图改变这一点,例如,通过将加速功能放在存储器端.
REG:告诉我们更多关于你在基因组学方面所做的工作.
OM:由于我们现在拥有的极其强大和低成本的基因组测序技术,基因组数据在世界各地呈爆炸式增长.
有时候,你需要快速分析这些数据,例如在治疗危重婴儿时,你想要确定最佳的个性化医疗治疗.
如今,这些数据将存储在云中,需要转移到处理器上.
我们希望消除这一点,这样就可以更快地做出决定.
我们已经能够将这种分析时间延迟减少到原来的1/30左右.
能源效率也可以提高,这取决于您正在进行的分析类型和您拥有的数据类型.
这仅仅是通过将加速能力转移到存储端.
REG:你还有其他可以谈论的例子吗?OM:还有我们在机器学习推理和大型语言模型方面的工作.
我们在这里看到了类似的良好结果.
你n需要对庞大的数据集进行操作以进行推理或训练.
数据需要结构化和存储,我们一直在为此创建一个数据库.
我们在每个闪存芯片旁边建造加速器,就像我们对基因组学所做的那样,结果是相似的.
我们谈论的是在性能和效率方面至少提高20倍.
还有其他应用程序也注意到了这一点.
例如,在大型图表中,你希望找到结构,比如社交网络使用的那些图表.
移动数据占据了大部分时间和精力.
当您将其转移到内存和存储系统时,您将获得巨大的改进.
性能提高了约14倍,能效提高了约10倍.
如果你把所有这些收益加在一起,你会得到大约100倍的改进.
REG:AI和ML正在改变围绕快速数据传输的规则和要求吗?OM:是的,我们需要调整我们的系统来应对这一点.
每当我们与制造这些机器学习加速器的工业界人士交谈时,他们都会受到数据的轰炸.
这真的改变了他们必须做的事情.
我们必须转向更加以数据为中心的范式来应对这些现实.
我并不是说这会很容易.
但我们必须摆脱我们今天使用的以处理器为中心的系统.
它是关于如何在不需要程序员太多努力的情况下相对容易地完成这项工作的方法.
在涉及更改的地方不可避免地会有一些痛苦.
我们都需要更加努力地工作.
编程模型和系统软件支持从第一天起就不会是完美的.
但随着时间的推移,随着这种以数据为中心的方法出现更多的示例,我们将更清楚地看到能量和性能方面的好处.
软件堆栈将进行调整.
这不是一夜之间的过渡,但确实有非常迫切的需要尽快实现.
我认为我们会随着向以内存为中心和以存储为中心的计算的转变而达到目标,但我们可能必须找到方法来更快地实现.
REG:你们的团队有什么计划来推动这一进程?OM:除了我们正在做的以存储和内存为中心的计算工作之外,还有更多的事情要做.
我还看到了未来,不仅是使用以存储为中心的模型来实现更好的机器学习,而且还看到了使用机器学习来设计更好的系统的另一面.
我们对此感到非常兴奋.
如果你看看我们今天设计系统的方式,就会发现有很多人为的决定.
例如,如果您想要设计存储控制器,策略通常会由人来设计.
但有了ML,我们可以设计出更好的控制器,随着时间的推移,这些控制器实际上可以从他们的决策中学习.
这样,随着时间的推移,系统在性能和效率方面会变得越来越好.
更智能的控制器可以做出更好的决策.
人类仍然需要参与,即使在我们有更好的自动化的地方.
但他们不再需要指挥政策.
我认为我们有很多令人兴奋的发展就在我们面前,由华为赞助.