为了减轻小型开发团队所面临的模型开发的经济负担,开源AI冠军Huging Face正在向公众提供价值1000万美元的GPU计算.
这一名为ZeroGPU的项目是由Huving Face首席执行官克莱姆·德兰格于周四通过Xitter宣布的.
他写道:“开源社区没有可用的资源来训练和演示大型科技公司拥有的这些模型,这就是为什么ChatGPT仍然是当今使用最多的AI应用程序.
拥抱Face通过推出ZeroGPU来应对这一问题,ZeroGPU是独立和学术AI构建者在太空运行AI恶魔的共享基础设施.
让他们可以自由地从事自己的工作,而不会有经济负担.
成立于2016年的拥抱脸已经成为开源人工智能模型的首选来源,这些模型已经进行了优化,可以在各种硬件上运行--这在一定程度上要归功于与Nvidia、英特尔、AMD等公司的密切合作伙伴关系.
Delangue将开源视为人工智能创新和采用的前进方向,因此他的企业正在向任何需要它的人提供大量完整的资源.
ZeroGPU将通过其应用程序托管服务提供,并在NVIDIA价值1000万美元的旧A100加速器上共享运行.
这种设置与许多云提供商租用GPU资源的方式不同.
客户往往需要长期的承诺才能获得最好的交易,这对规模较小的参与者来说可能是有限的,因为他们无法提前预测自己模式的成功.
大云模型对于试图将现有模型商业化的大型公司来说也是个问题.
据报道,稳定人工智能的GPU承诺如此之大,以至于广受欢迎的稳定扩散图像生成器背后的英国模型构建者实际上在其AWS账单上违约.
拥抱脸的共同性质意味着--至少在一开始--它将仅限于人工智能推理,而不是培训.
根据数据集和模型的大小,训练即使是小模型也可能需要数千个GPU在较长时间内全速运行.
Huging Face的支持文档确实很薄,说明GPU的功能限制在最长120秒,这对于培训来说显然是不够的.
The Register联系了Huging Face澄清ZeroGPU的应用,一位发言人回复说,这是“大部分是推断,但我们对其他人有令人兴奋的想法.
”所以,看看这个领域吧.
就Huging Face如何将整个GPU专用于个人用户而言,根据所需的隔离程度,不乏实现这一点的方法.
根据Delangue的说法,该系统能够“根据需要有效地持有和释放GPU”--但这实际上是如何进行的尚不清楚.
时间切片技术可以同时运行多个工作负载,Nvidia的多实例GPU(MIG)技术-允许芯片被划分为七个逻辑GPU-之前曾被Vultr等云提供商用来让开发人员更容易获得GPU计算.
另一种方法是在Kubernetes协调的GPU加速容器中运行工作负载.
或者,拥抱脸可以运行类似于Cloudflare的GPU服务工作方式的无服务器功能.
然而,值得注意的是,所有这些方法都有实际的限制--最大的限制是内存.
根据支持文档,拥抱脸似乎使用的是40 GB的A100变种.
即使运行4位量化模型,这也只能支持一个800亿参数模型.
由于Key-Value缓存的开销,实际的限制将会更少.
我们已经要求Huging Face澄清它是如何共享这些计算资源的.
如果有新的信息,我们会及时更新.
在GPU是一种稀缺资源的时候--以至于像Lambda和CoreWeave这样的比特公司都在用他们的硬件作为抵押品,以获得数万个额外的加速器--对于希望基于人口数量构建人工智能加速应用的初创公司来说,拥抱脸的产品可能会让他们松一口气r模型.
,Hugging Face在D轮融资中筹集了2.
35亿美元,该轮融资由您可能预期的所有人工智能重量级公司牵头,包括谷歌、亚马逊、英伟达、AMD、英特尔、IBM和高通.
然而,这也有点讽刺,因为拥抱脸的几位最大的支持者就是开发专有模型的人,德兰格担心最终可能会排挤较小的人工智能初创公司.
Zero图形处理器Spaces目前处于公测状态. .