Qwen2 发布：5种尺寸模型，支持128K上下文，性能大幅提升

Qwen Team Blog·大约 2 年前·约 8 分钟阅读

GABRIB拥抱脸模型镜演示DISCORD介绍经过几个月的努力，我们很高兴地宣布Qwen 1的演变。5到Qwen 2。这次，我们为您带来：- 预训练和经过描述调整的5种尺寸模型，包括Qwen 2 -0。

5B，Qwen 2 -1。5 B、Qwen 2 - 7 B、Qwen 2 - 57 B-A14 B和Qwen 2 - 72 B;- 除英语和中文外，还接受过27种其他语言的数据培训;- 在大量基准评估中表现最先进;

- 编码和数学方面的性能显着提高;- Qwen 2 - 7 B-Direct和Qwen 2 - 72 B-Direct扩展上下文长度支持高达128 K令牌。我们已向您开放了Hugging Face和MechanScope中的模型，期待您的来信！

模型信息Qwen 2系列包括5种尺寸的基本型号和经过调整的型号，其中包括Qwen 2 -0。5B，Qwen 2 -1。5B、Qwen 2 - 7 B、Qwen 2 - 57 B-A14 B、Qwen 2 - 72 B。

我们在下表中说明了模型的关键信息：具体来说，之前在Qwen 1中。5、只有Qwen 1。5- 32 B和Qwen 1。5- 110 B采用了小组查询注意力（GQA）。这一次，对于所有模型尺寸，我们都应用GQA，以便它们在模型推断中可以享受更快的速度和更少的内存使用的好处。

对于小型模型，我们更喜欢应用捆绑嵌入，因为大型稀疏嵌入占据了总模型参数的很大一部分。

就上下文长度而言，所有基础语言模型都在32 K个令牌的上下文长度数据上进行了预训练，并且我们在PPL评估中观察到高达128 K的令人满意的外推能力。然而，对于描述调整的模型，我们并不满足于仅仅PPL评估;

我们需要模型能够正确理解长期上下文并完成任务。在表中，我们列出了经过描述调整的模型的上下文长度能力，通过对干草堆中的针任务的评估进行了评估。

值得注意的是，当使用YARN进行增强时，Qwen 2 - 7 B-Direct和Qwen 2 - 72 B-Direct模型都表现出了处理高达128 K令牌的上下文长度的令人印象深刻的能力。

我们做出了巨大努力，以提高英语和中文以外的多种语言范围内的预培训和描述调整数据集的数量和质量，以增强其多语言能力。

尽管大型语言模型具有推广到其他语言的固有能力，但我们明确强调在我们的培训中纳入了27种额外语言：此外，我们还投入了大量精力来解决多语言评估中经常发生的代码转换问题。因此，我们的模型处理这种现象的熟练程度显着提高。

使用通常会引发跨语言代码切换的提示进行的评估证实了相关问题的大幅减少。

性能比较评估显示，相对于Qwen 1，大规模模型（70 B+参数）的性能大幅增强。5.这里我们的评估集中在大尺寸型号Qwen 2 - 72 B上。

在基础语言模型方面，Qwen 2 - 72 B和最先进的开放模型的不同能力进行了评估，包括自然语言理解、知识获取、编码熟练程度、数学技能和多语言能力。

得益于精心策划的数据集和优化的训练方法，与Llama-3- 70 B等领先型号相比，Qwen 2 - 72 B表现出卓越的性能。值得注意的是，它的性能超过了其前身Qwen 1。5- 110 B，尽管参数较少。

经过广泛的大规模前期训练，我们进行后期训练，进一步增强Qwen的智力，使其更接近人类。该过程进一步提高了模型在编码、数学、推理、指令遵循、多语言理解等领域的能力。此外，它还将模型的输出与人类价值观保持一致，确保其有用、诚实和无害。

我们的训练后阶段是按照可扩展训练的原则设计的，且人类注释最少。

具体来说，我们研究如何通过各种自动化对齐策略来获得高质量、可靠、多样化和创造性的演示数据和偏好数据，例如数学的拒绝抽样、编码和描述跟随的执行反馈、创意写作的反向翻译、角色扮演的可扩展监督等。至于培训，我们应用监督微调的组合，奖励模型培训和在线DPO培训。

我们还采用新颖的在线合并优化器来最大限度地减少调整税。这些集体努力显着增强了我们模型的能力和智能，如下表所示。我们对各个领域的16个基准进行了全面评估。Qwen 2 - 72 B-Direct在获得更好的能力和与人类价值观保持一致之间取得了平衡。

具体来说，Qwen 2 - 72 B-Direcct显着优于Qwen 1。5- 72 B-Chat跨所有基准，与Llama-3- 70 B-Direct相比也达到了有竞争力的性能。1在较小型号方面，我们的Qwen 2型号也优于类似甚至更大尺寸的SOTA型号。

与最近发布的SOTA模型相比，Qwen 2 - 7 B-Direct仍然可以在各个基准测试中表现出优势，特别是在编码和中文相关指标方面表现出色。

1亮点编码与数学我们坚持不懈地致力于提高Qwen的先进能力，特别是在编码和数学方面。在编码方面，我们成功集成了来自CodeQwen 1的代码培训经验和数据。5，导致Qwen 2 - 72 B-Direct跨各种编程语言的显着改进。

在数学方面，Qwen 2 - 72 B-Direct通过利用广泛、高质量的数据集，体现了更强的解决数学问题的能力。

长期背景理解在Qwen 2中，所有经过描述调整的模型都在32k长度的上下文上训练，并使用YARN或Dual Chunk Attention等技术外推到更长的上下文长度。下图显示了我们对干草堆中的针的测试结果。

值得注意的是，Qwen 2 - 72 B-Direct能够在128 k上下文中完美地处理信息提取任务。再加上其固有的强大性能，成为资源充足时处理长文本任务的首选。

此外，值得注意的是，该系列中其他型号的功能令人印象深刻：Qwen 2 - 7 B-Direcut几乎完美地处理长达128 k的上下文，Qwen 2 - 57 B-A14 B-Direcut管理长达64 k的上下文，以及两款较小的型号，支持32 k的阵容。

除了长上下文模型之外，我们还开源了一个代理解决方案，用于高效处理包含多达100万个令牌的文档。

欲了解更多详细信息，请参阅我们关于此主题的专门博客文章。安全与责任下表列出了大型模型针对四类多语言不安全查询（非法活动、欺诈、色情、隐私暴力）产生的有害响应的比例。测试数据源自越狱，并翻译成多种语言进行评估。

我们发现Llama-3无法有效处理多语言提示，因此，它不包括在比较中。通过显着性测试（P_值），我们发现Qwen 2 - 72 B-Direcct型号在安全性方面表现优于GPT-4，并且显着优于Mistral-8x 22 B型号。

用Qwen 2开发现在所有型号都已在Hugging Face和MechanScope中发布。请随时查看模型卡了解详细使用方法，了解每个模型的更多信息，包括其功能、性能等。长期以来，很多朋友一直支持Qwen的开发，包括微调（Axolot

原文出处

本文为机器翻译辅以 AI 润色，仅供参考。原始事实以原文为准。

相关阅读