探索财经奥秘,指引财富未来

昆仑万维推出全新开源的万亿参数稀疏大模型——天工MoE。

admin 2024-06-03 19:02:00
证券时报网报道,6月3日,昆仑万维宣布其最新开源的Skywork-MoE模型,这是一款性能强大且成本效益高的大模型,具有2000亿个稀疏参数。Skywork-MoE源自昆仑万维之前开源的Skywork-13B模型,并首次实现了MoE Upcycling技术的实际应用,成为开源领域首个千亿级MoE模型,同时支持单台4090服务器进行推理。
Skywork-MoE属于天工3.0研发系列的中型模型,拥有146亿参数,其中活跃参数为22亿,由16个专家组成,每个专家容量为13亿,每次仅激活其中两个。据评估,Skywork-MoE在与行业主流模型比较时,在保持20亿激活参数(即推理计算量)的情况下,表现出众,接近70亿密集模型的性能。这意味着它的推理成本降低了约30%。此外,Skywork-MoE的参数总量比DeepSeekV2少三分之一,却能实现相近的性能。
Skywork-MoE是目前市面上能在8台4090服务器上运行的最大开源MoE模型,这些服务器总计拥有192GB的GPU显存。借助昆仑万维自主研发的非均匀Tensor Parallel并行推理技术,在FP8量化下(权重占用146GB),模型可实现每秒处理2200个token的吞吐量。天工团队已全面开源了推理框架代码和安装环境。
昆仑万维期待Skywork-MoE及其相关技术资料能为开源社区提供丰富的MoE训练经验和专业知识,包括模型架构、超参数优化、训练策略以及加速技术等方面,共同推动以更低的成本训练出更大、更强的模型,助力AI通向通用人工智能(AGI)的目标。