探索财经奥秘,指引财富未来

阿里云推出开源模型Qwen2,超越文心4.0等闭源模型。

邓卫平 2024-06-07 13:52:48
据阿里云在其最新技术博客中宣布,他们最新的开源模型Qwen2-72B在性能上超越了美国开源模型Llama3-70B以及包括文心4.0、豆包pro和混元pro在内的多个中国封闭源码大模型。这一成就基于模型测评榜单OpenCompass的数据,其中Qwen1.5-110B先前已经领先于中国的文心4.0等同类模型。Qwen2-72B较其前代Qwen1.5-110B在整体效能上有了显著提升。
Qwen2系列由阿里云的通义千问团队开发,特别强调了在代码编写、数学问题解答、逻辑推理、指令理解和多语言处理等领域的增强能力。在诸如MMLU、GPQA、HumanEval、GSM8K、BBH、MT-Bench、Arena Hard和LiveCodeBench等国际权威评测中,Qwen2系列的表现超过了美国的Llama3。
值得注意的是,Qwen2家族包含了五个不同规模的预训练和指令微调模型,分别是Qwen2-0.5B、Qwen2-1.5B、Qwen2-7B、Qwen2-57B-A14B和Qwen2-72B,其中Qwen2-57B-A14B采用混合专家模型(MoE)架构。所有这些模型均整合了GQA(分组查询注意力)技术,旨在提供更快的推理速度和更低的内存占用,从而提升用户的使用体验。用户现在可以在魔搭社区和Hugging Face平台上免费获取通义千问的最新开源模型。