Qwen2.5-Max:探索大规模MoE模型的智能化
人们普遍认为,不断扩展数据大小和模型大小可以显著提高模型智能。然而,研究和行业界在有效扩展超大模型方面经验有限,无论它们是密集模型还是混合专家(MoE)模型。有关此扩展过程的许多关键细节仅在最近发布的DeepSeek V3中披露。
目前,我们正在开发Qwen 2。5-Max是一个大规模MoE模型,已在超过20万亿个代币上进行了预训练,并使用精心策划的监督微调(SFT)和来自人类反馈的强化学习(RL HF)方法进一步进行了后训练。
今天,我们很高兴分享Qwen 2的性能结果。5-Max并宣布通过阿里云提供其API。我们还邀请您探索Qwen 2。5-麦克斯在Qwen聊天!性能我们评估Qwen 2。5-Max与领先的模型(无论是专有的还是开放重量的)一起,涵盖了社区感兴趣的一系列基准。
其中包括通过大学水平问题测试知识的MMLU-Pro、评估编码能力的LiveCodeBench、全面测试一般能力的LiveBench以及接近人类偏好的Arena-Hard。我们的调查结果包括基本模型和指令模型的性能分数。
我们首先直接比较指令模型的性能,这些模型可以为聊天和编码等下游应用程序服务。我们展示了Qwen 2的性能结果。5-Max与DeepSeek V3、GPT-4 o和Claude-3等领先的最先进型号一起亮相。
5-十四行诗。Qwen 2. 5-Max在Arena-Hard、LiveBench、LiveCodeBench和GPQA-Diamond等基准测试中的表现优于DeepSeek V3,同时在包括MMLU-Pro在内的其他评估中也表现出了竞争力。
在比较基本型号时,我们无法访问GPT-4 o和Claude-3等专有型号。第五首十四行诗因此,我们评估Qwen 2。5-Max对阵DeepSeek V3,一款领先的开放重量型MoE模型Llama-3。
1- 405 B,最大的开重密集模型,以及Qwen 2。5- 72 B,也是顶级开重密集车型之一。这次比较的结果如下。我们的基本模型在大多数基准测试中表现出了显着的优势,我们乐观地认为训练后技术的进步将提升Qwen 2的下一版本。
5-麦克斯达到了新的高度。使用Qwen 2。5-最大现在Qwen 2。5-Max在Qwen Chat中可用,可以直接与模特聊天,也可以玩文物、搜索等Qwen 2的API。5-Max(型号名称为qwen-max-2025-01-25)可用。
您可以先注册阿里云帐户并激活阿里云模型工作室服务,然后导航至控制台并创建API密钥。
由于Qwen的API兼容OpenAI-API,因此我们可以直接遵循使用OpenAI API的常见做法。下面是使用Qwen 2的示例。
5-Python中的Max:从openai进口OpenAI导入操作系统客户端= OpenAI(api_key= os. getenv(“API_KEY”),base_url=“https://dashscope-intl。
阿里云。com/compatible-mode/v1”,)完成=客户。chat.完成。创建(型号=“qwen-max-2025-01-25”,消息=['角色':'系统'、'内容':'您是一个乐于助人的助手。
'},“角色”:“用户”,“内容”:“哪个数字更大,9。11或9。8?'}])print(完成)选择[0]。信息)今后工作数据和模型大小的扩展不仅展示了模型智能的进步,也反映了我们对开创性研究的坚定承诺。
我们致力于通过规模强化学习的创新应用增强大型语言模型的思维和推理能力。这项努力有望使我们的模型能够超越人类智能,释放探索未知知识和理解领域的潜力。引文如果您找到Qwen 2,请随时引用以下文章。
5有帮助。@article{qwen 25,title={Qwen 2. 5技术报告},作者={Qwen Team},journal={arXiv预印本arXiv:2412。15115},年={2024}}