Qwen2.5：基础模型盛宴！史上最大开源发布

Qwen Team Blog·将近 2 年前·约 8 分钟阅读

GABRIB拥抱脸模型镜演示DISCORD介绍自Qwen 2发布以来的三个月里，众多开发人员在Qwen 2语言模型上构建了新模型，为我们提供了宝贵的反馈。在此期间，我们专注于创建更智能、更知识的语言模型。

今天，我们很高兴地介绍Qwen家族的最新成员：Qwen 2。5.我们即将宣布可能是历史上最大的开源版本！让我们开始派对吧！我们的最新版本包含LLM Qwen 2。5，以及专门的编码模型Qwen 2。

5-编码器和数学，Qwen 2。5-数学。所有开重模型都是密集的、仅解码器的语言模型，有各种大小可用，包括：- Qwen 2. 5：0。5B，1。5 B、3B、7 B、14 B、32 B和72 B- Qwen 2. 5-编码器：1。

5 B、7 B和32 B正在路上- Qwen 2. 5-数学：1。5 B、7 B和72 B。除了3B和72 B变体外，我们所有的开源模型都在Apache 2下获得许可。0.您可以在相应的Hugging Face存储库中找到许可证文件。

除了这些模型外，我们还通过Model Studio为旗舰语言模型提供API：Qwen-Plus和Qwen-Turbo，我们鼓励您探索它们！此外，我们还开源了Qwen 2-BL-72 B，与上个月的版本相比，该版本的性能有所增强。

有关Qwen 2的更多详细信息。5、Qwen 2。5-Coder和Qwen 2。5-数学，请随时访问以下链接：Qwen 2. 5法学硕士Qwen 2。5-编码器Qwen 2。

5-数学准备好通过我们广泛的模特阵容开启充满可能性的世界吧！我们很高兴与您分享这些尖端模型，我们迫不及待地想看看您将用它们实现的令人难以置信的事情！外卖就Qwen 2而言。5、语言模型，所有模型都在我们最新的大规模数据集上进行了预训练，该数据集涵盖多达18万亿个代币。

与Qwen 2相比，Qwen 2. 5获得了更多的知识（MMLU：85+），并极大地提高了编码（HumanEval 85+）和数学（MAT 80+）的能力。

此外，新模型在指令遵循、生成长文本（超过8 K个令牌）、理解结构化数据（例如g，表格），并生成结构化输出，尤其是杨森。Qwen 2. 5个模型通常对系统提示的多样性更具弹性，增强了聊天机器人的角色扮演实施和条件设置。

就像Qwen 2一样，Qwen 2。5种语言模型支持最多128 K个令牌，并可以生成最多8 K个令牌。他们还对超过29种语言保持多语言支持，包括中文、英语、法语、西班牙语、葡萄牙语、德语、意大利语、俄语、日语、韩语、越南语、泰文、阿拉伯语等。

下面，我们提供了有关模型和支持语言详细信息的基本信息。专业的专家语言模型，即Qwen 2。5-用于编码和Qwen 2的编码器。

5-与其前身CodeQwen 1相比，数学的数学经历了重大改进。5和Qwen 2-数学。具体来说，Qwen 2。5-编码器已接受过5次培训。5万亿个代码相关数据代币，使更小的特定编码模型能够在编码评估基准上提供与更大的语言模型有竞争力的性能。

与此同时，Qwen 2. 5-数学支持中文和英语，并融合了各种推理方法，包括思想链（CoT）、思想程序（PoT）和工具集成推理（TLR）。性能Qwen 2. 5展示Qwen 2。5的功能，我们对我们最大的开源模型Qwen 2进行了基准测试。

5- 72 B-72 B参数密集仅解码器的语言模型-针对Llama-3等领先的开源模型。1- 70 B和Mistral-Large-V2。我们展示了跨各种基准的描述优化版本的全面结果，评估模型能力和人类偏好。

除了经过描述调整的语言模型之外，我们还发现我们的旗舰开源模型Qwen 2的基本语言模型。即使与Llama-3- 405 B等较大型号相比，5- 72 B也能达到顶级性能。

此外，我们还将基于API的模型Qwen-Plus的最新版本与领先的专有和开源模型（包括GPT 4-o、Claude-3）进行了基准测试。5-十四行诗，骆驼-3。1- 405 B和DeepSeek-V2。

5.这种比较展示了Qwen-Plus在当前大型语言模型格局中的竞争地位。

我们发现Qwen-Plus明显优于DeepSeek-V2。5，并展示了对Llama-3的竞争力。1- 405 B，但与GPT 4-o和Claude-3相比仍表现不佳。5-在某些方面的十四行诗。

这一基准测试不仅凸显了Qwen-Plus的优势，还确定了未来改进的领域，强化了我们在大型语言模型领域持续增强和创新的承诺。Qwen 2的重大更新。5是重新推出的14 B和32 B型号Qwen 2。

5- 14 B和Qwen 2。5- 32 B。这些模型的性能优于同等或更大尺寸的基线模型，例如Phi-3。5-MoE-Direct和Gemma 2 - 27 B-IT，执行不同的任务。它们实现了型号大小和功能之间的最佳平衡，提供与一些较大型号相匹配或超过的性能。

此外，与两种开源型号相比，我们基于API的型号Qwen-Turbo提供了极具竞争力的性能，同时提供经济高效且快速的服务。近年来，小型语言模型（SLC）发生了显着的转变。尽管SLC历来落后于较大的同行（LLM），但性能差距正在迅速缩小。

值得注意的是，即使只有30亿个参数的模型现在也能提供极具竞争力的结果。

随附的图说明了一个显着的趋势：在MMLU中得分超过65的新模型越来越小，凸显了语言模型之间知识密度的加速增长。值得注意的是，我们的Qwen 2。5-3B就是一个典型的例子，仅用约30亿个参数就实现了令人印象深刻的性能，展示了其与前辈相比的效率和能力。

除了基准评估的显着增强外，我们还完善了培训后方法。我们的四个关键更新包括支持最多8 K令牌的长文本生成、显着提高对结构化数据的理解、更可靠地生成结构化输出（特别是以杨森格式）以及在不同系统提示中增强的性能，这促进了有效的角色扮演。

请查看LLM博客，了解有关如何利用这些功能的详细信息。Qwen 2. 5-编码器自从CodeQwen 1推出以来。5、我们已经吸引了大量依赖此模型执行各种编码任务的用户，例如调试、回答编码相关问题以及提供代码建议。

我们最新的迭代，Qwen 2。5-Coder，是专门为编码应用而设计的。在本节中，我们展示Qwen 2的性能结果。5-Coder-7 B-Direct，以领先的开源模型为基准，包括参数大小明显更大的模型。

我们相信Qwen 2. 5-Coder是您的个人编码助理的绝佳选择。

尽管规模较小，但它在一系列编程语言和任务中的表现优于许多较大的语言模型，证明了其出色的编码能力。Qwen 2. 5-数学在数学特定语言模型方面，我们上个月发布了第一个模型Qwen 2-Math，这次与Qwen 2-Math、Qwen 2进行了比较。

5-Math已经预训练了更大规模的数学相关数据，包括Qwen 2-Math生成的合成数据。此外，我们这次扩大了对中文的支持，我们还通过赋予中文执行CoT、PoT和TLR的能力来增强其推理能力。

Qwen 2的总体表现。5-Math-72 B-Direct超越了Qwen 2-Math-72 B-Direct和GPT 4-o，甚至超越了Qwen 2这样的非常小的专家模型。5-数学-1。5 B-Direct可以针对大型语言模型实现极具竞争力的性能。

发展

原文出处

本文为机器翻译辅以 AI 润色，仅供参考。原始事实以原文为准。

相关阅读