探索财经奥秘,指引财富未来

昆仑万维发布全球首个2万亿参数稀疏大模型天工MoE,可由4090显卡进行推理。

admin 2024-06-03 20:08:00
在2024年6月3日,昆仑万维宣布开源了一款名为Skywork-MoE的先进大模型,该模型具有强大的性能和更低的推理成本,起源于之前开源的Skywork-13B模型。Skywork-MoE是全球首个成功应用并实际落地的千亿级MoE(混合专家)模型,同时也是首个能在单台4090服务器上运行的开源千亿级MoE模型。
Skywork-MoE属于天工3.0研发模型系列的中等规模,拥有146亿个总参数和22亿个激活参数,由16个大小均为13B的专家组成,每次仅激活其中的两个。此外,天工3.0还开发了75B和400B的其他规模模型,但暂未开源。
在模型能力方面,Skywork-MoE在20B的激活参数下表现出行业领先的实力,接近70B密集模型的性能,同时其参数规模比DeepSeekV2少三分之一,却能达到相似的能力,降低了近三倍的推理成本。
为了克服MoE模型训练难题和泛化性能不足,Skywork-MoE创新了两种训练策略:一是通过Gating Logits归一化增强对顶级专家的信心,二是引入自适应辅助损失,根据训练阶段动态调整Drop Token Rate,保持专家间的平衡与差异化。
在训练基础设施方面,Skywork-MoE提出两种并行优化设计,使其在千卡集群上实现了38%的MFU训练吞吐率。其中包括Expert Data Parallel,它在处理专家数量较少时也能高效分割模型,且易于扩展;以及非均匀流水并行,通过重新分配计算资源,有效解决了流水线不平衡问题,提升了约10%的训练效率。
此外,研究者通过Scaling Laws实验发现,当训练MoE模型所需的计算量远超密集模型时,从头开始训练效果更佳;反之,Upcycling(升级训练)则能显著降低成本。Skywork-MoE能在8台4090服务器上,利用非均匀Tensor Parallel方法,以FP8量化处理,实现2200tokens/s的吞吐量。
总的来说,昆仑万维通过开源Skywork-MoE及其相关技术,旨在为开源社区提供丰富的MoE训练知识,包括模型构建、超参数优化、训练策略及加速方法,共同推动AI向通用人工智能(AGI)迈进。