探索财经奥秘,指引财富未来

人工智能时代的存储现代化

admin 2024-05-25 13:44:13

赞助功能您可能已经分析了企业内人工智能(AI)的人工智能用例,并确定了潜在的效率、收入机会等.

现在,困难的部分来了:构建支持您的使命的基础设施.

计算能力是这一组合的关键部分,但公司往往忽视了另一个同样重要的因素:存储.

在最新的GPU或云功能上投入巨资,让自己在人工智能模型的训练和推理中获得优势是重要的,但如果你不能向这头野兽提供它交付结果所需的数据,这些都将是徒劳的.

这就是横向扩展存储技术的用武之地--帮助组织为这个人工智能新世界提出的基础架构问题提供答案.

戴尔技术公司的产品经理汤姆·威尔逊主要关注人工智能工作负载,他将数据比作燃料,将计算比作引擎,将存储比作燃料箱.

他表示:“对于参与人工智能的公司来说,数据是一个与众不同的因素.

拥有一个现代化的平台,提供公司在人工智能工作流中使用这些数据所需的安全性、存储效率、性能和可扩展性,是我们PowerScale的关键支柱之一.

”威尔逊是支持PowerScale的技术的资深倡导者,PowerScale是戴尔文件存储解决方案,随着两款新的PowerScale F210和F710闪存阵列的发布,PowerScale已升级为提供AI优化的存储基础架构.

PowerScale采用了最新的PowerEdge硬件和OneFS软件,展示了它是“AI-Ready Data Platform”的关键组件,旨在提供所需的性能、可扩展性和安全性,以帮助客户在数据所在的任何位置、本地环境或云和云相邻环境中构建支持AI的工作负载.

戴尔是首批支持NVIDIA GPUDirect协议的公司之一,该协议使存储系统能够快速发送和接收数据,而无需主机处理器来加速AI工作负载.

威尔逊回忆说,早在GPU和云计算成为人工智能主流之前,客户就已经在努力应对非结构化数据带来的存储量增长,但对人工智能和产生式人工智能(GenAI)应用程序的需求激增,给现有的存储基础设施带来了更大的压力.

威尔逊说:“我们想帮助解决的问题之一是,如何在全球范围内可预测地管理海量数据.

”这就是我们创建横向扩展文件系统的原因.

由于几个原因,传统的纵向扩展存储可能难以处理为人工智能模型提供支持所需的海量数据.

首先,它通过将更多驱动器添加到具有自己专用机头单元的单个系统中进行扩展.

这种方法的明显缺点是容量有限,因为底盘最终会用完空间.

而不太明显的缺点是有限的性能.

威尔逊解释说,随着存储容量的增加和磁盘的增加,组织存储的头部单元将承受越来越大的负载.

在纵向扩展系统中,最初几十TB的性能可能会很好地满足您的需求,但随着您添加更多的存储容量,性能并不会增加.

威尔逊说,在某个时候,存储工作流可能会超出纵向扩展系统所能提供的吞吐量.

相反,横向扩展存储使用集群存储节点,每个节点都有自己的计算和存储能力.

向系统添加另一个节点可提升整个集群的计算能力.

在PowerScale体系结构中,PowerScale的下一代节点F210和F710在上一代全闪存节点的基础上进行了改进,利用最新一代的PowerEdge平台以第四代Intel Xeon Sapphire Rapids CPU的形式提供更快的计算能力.

由于最新的DDR5 DRAM选项,它们还具有更高的内存速度.

速度更快的PCIe Gen 5总线可将吞吐量提高四倍威尔逊解释说,与之前节点中使用的第三代PCIe相比,这些硬件改进尤其适用于人工智能应用程序.

例如,PCIe和SSD接口的混合改进有助于将流读写吞吐量提高一倍-这是影响AI管道阶段的关键性能指标,如模型培训和检查点阶段.

1U格式系统还通过增加所需的容量来提高节点密度,以确保可以轻松容纳AI所需的海量数据.

与F600的S 8硬盘相比,F710配备了10个硬盘的空间,而F210引入了15 TB硬盘,容量翻了一番.

此外,这些系统还配备了Smart Flow底盘-戴尔PowerEdge硬件的一块IP-可以更高效地推动空气通过系统.

威尔逊解释说,这有助于保持系统可靠性,同时减少用于冷却的电力-这是数据中心在为获取和保持AI工作负载运行所需的服务器、存储和网络设备供电方面面临巨额电费和总拥有成本挑战时的一个重要考虑因素.

与上一代产品相比,F710提供了高达90%的性能功耗比.

先进的软件是对硬件的补充,戴尔还更新了PowerScale的OneFS操作系统,以充分利用硬件增强.

线程优化等功能有助于增强人工智能性能.

戴尔报告称,在处理许多AI培训和推理应用程序所需的高并发性、延迟敏感型工作负载时,F710的吞吐量最多比F600提高2.6倍.例如,威尔逊说:“全闪存NVMe驱动器的性能提升意味着我们不一定需要与以前使用的相同级别的缓存.

”OneFS 9.

6还为AI工作负载添加了另一项重要功能,即利用混合云功能处理AI培训和推理任务.

OneFS 9.

6使用读锁定等技术优化了与这些NVMe驱动器的通信.

我们还将日志直接写入驱动器.

戴尔表示,AWS的APEX文件存储是与OneFS 9.

6一起推出的,而最近OneFS 9.

8也推出了适用于Azure的APEX文件存储-这为组织提供了更大的灵活性和选择.

通过在云中运行OneFS,客户可以异地移动所需数据的子集.

例如,他们可能会选择在本地处理数据准备和清理,然后将准备好的数据移到云中,以利用他们现场没有的计算能力.

威尔逊解释说,在云环境中运行PowerScale的关键好处是,客户可以随身携带他们的安全模型.

他们使用OneFS中的本机复制来移动所需的数据,使数据在云中具有与本地部署相同的安全策略、权限和身份管理参数.

他们不必重构其工作流,这意味着他们可以毫不犹豫地快速移动到AI管道的下一个部分,同时遵守其数据隐私和保护策略.

戴尔表示,PowerScale存储是一种全面的AI基础架构,可以根据其注定支持的特定AI工作流(例如,无论是模型保留、数据准备或大规模模型培训或调整),针对效率、性能和成本进行优化.

新设备在正式上市时,已经在戴尔客户的现场测试中产生了有用的结果.

博通首席信息官艾伦·戴维森表示,这些系统帮助显著提升了电子设计自动化(EDA)运营的性能.

他说:“与戴尔合作意味着我的业务创新更快.

新的Dell PowerScale F710超出了我们的预期,EDA工作负载的性能提升了25%以上,同时提供了更好的数据中心服务这些系统进一步构建了一个可以服务于复杂人工智能基础架构的产品组合,并通过包括戴尔和NVIDIA之间的合作伙伴关系得到了增强.

F710是第一款经NVIDIA DGX SuperPod认证的基于以太网的存储设备,是该公司于3月份与NVIDIA共同宣布的戴尔AI Factory的关键部件.

它是戴尔基础架构、NVIDIA GPU和软件的端到端验证组合,支持整个可生成的AI生命周期.

NVIDIA首席执行官Jensen Huang在该公司的GTC 2024 AI开发者大会上表示,在为企业构建端到端系统方面,没有人比戴尔更擅长.

这种硬件和软件组合与戴尔的一系列文档和体系结构指导相结合.

威尔逊说,我们不仅拥有同类最佳的基础架构,而且拥有专业知识,无论是在服务方面,还是在最佳实践文档和经过验证的设计和参考体系结构方面.

“我们有完整的堆栈来帮助客户简化他们的人工智能之旅.

”当他们争先恐后地采用人工智能时,组织正在努力管理他们的基础设施.

由于人工智能项目是如此数据密集型的项目,很有可能一家公司的人工智能管道中至少有一部分将涉及本地存储.

在开发团队、软件工程师、数据科学家和其他人开始处理满足这些人工智能工作负载所需的大容量和高带宽要求时,正确处理基础设施投资组合中的存储部分可以消除这一过程中的瓶颈.

在这个数据充斥的未来,优化的横向扩展存储基础架构看起来越来越像是正确的方法.

在确保企业拥有构建和推出支持人工智能的新应用程序和服务所需的高效、高性能基础架构方面,任何组织都不能固步自封.

持续的优化和升级是IT行业的常态-在许多情况下,由于最近对人工智能的需求激增,这一点变得更加关键.

戴尔预计将继续保持自己的势头,并在戴尔赞助的2024年戴尔技术世界大会上宣布对其AI优化产品组合进行更多增强,以帮助客户进入这个人工智能时代.