Qwen1.5发布：开源多尺寸基础与聊天模型

Qwen Team Blog·超过 2 年前·约 7 分钟阅读

GABRIB拥抱脸模型镜演示DISCORD介绍近几个月来，我们的重点一直是开发“好”模型，同时优化开发人员体验。当我们迈向Qwen 1时。5，我们Qwen系列的下一个版本，此更新将在农历新年之前发布。

与Qwen 1。5，我们是六种规模的开源基础和聊天模型：0。5B，1。8B、4 B、7 B、14 B、32 B、72 B和110 B，以及MoE模型（请参阅博客了解更多信息）。

按照传统，我们还提供量化模型，包括Int 4和Int 8 GPTQ模型，以及AWQ和GGUF量化模型。为了增强开发人员体验，我们合并了Qwen 1。5的代码进入Hugging Face变压器，使其可以通过变压器'=4访问。

37. 0无需trust_remote_code.我们与vLLM、SGLang用于部署、AutoAWQ、AutoGPTQ用于量化、Axolotl、LLaMA-Factory用于微调和lama等框架合作。

cpp用于本地LLM推断，所有这些现在都支持Qwen 1。5. Qwen 1。5系列可在Olama和LMStudio等平台上使用。此外，API服务不仅在DashScope上提供，还在一起提供。

ai，具有全球可访问性。请访问此处开始，我们建议尝试Qwen 1。5- 72 B-chat。该版本极大地改进了聊天模型与人类偏好的一致性，并增强了多语言功能。所有模型现在统一支持高达32768个令牌的上下文长度。

基础语言模型的质量也有一些小的改进，这可能会有利于您的微调工作。这一步代表着我们朝着创建真正“好”模型的目标迈出了一小步。性能更好地了解Qwen 1的性能。

5、我们对基础模型和聊天模型的不同能力进行了全面评估，包括语言理解、编码、推理、多语言能力、人类偏好、代理、检索增强生成（RAG）等基本能力。

基本能力为了评估语言模型的基本能力，我们对传统基准进行了评估，包括MMLU（5-shot）、C-Eval、Humaneval、GS 8 K、BBH等。在每个模型尺寸下，Qwen 1. 5在不同的评估基准中表现出色。

特别是Qwen 1. 5- 72 B在所有基准测试中的表现都优于Llama 2 - 70 B，展示了其在语言理解、推理和数学方面的卓越能力。鉴于最近人们对小型语言模型的兴趣激增，我们对Qwen 1进行了比较。

5，尺寸小于70亿个参数，与社区内最优秀的小规模模型进行对比。结果如下：我们可以自信地断言Qwen 1. 70亿个参数下的5个基础模型与社区领先的小规模模型具有高度竞争力。

未来，我们将继续提高小型号的质量，探索将大型号固有的先进能力有效转化为小型号的方法。符合人类偏好对齐旨在增强LLM的描述遵循能力，并帮助提供与人类偏好密切一致的响应。

认识到将人类偏好整合到学习过程中的重要性，我们有效地采用了直接策略优化（DPO）和近端策略优化（PPO）等技术来调整最新的Qwen系列。然而，评估此类聊天模型的质量构成了重大挑战。诚然，虽然全面的人类评估是最佳方法，但它面临着与可扩展性和可重复性相关的重大挑战。

因此，我们最初在两个广泛使用的基准上评估我们的模型，并利用先进的LLM作为评委：MT-Bench和Alpaca-Eval。结果如下：我们注意到MT-Bench的分数存在不可忽视的差异。因此，我们在结果中使用不同种子进行了三次运行，并报告平均分和标准差。

尽管仍然明显落后于最大的开源Qwen 1 GPT-4-Turbo。5型号，Qwen 1。5- 72 B-Chat，表现出卓越的性能，超过Claude-2。1、GPT-3。

5-Turbo-0613、Mixtral-8x 7 b-instruction和TULU 2 DPO 70 B，在MT-Bench和Alpaca-Eval v2上与Mistral Medium不相上下。

此外，虽然LLM法官的评分似乎与响应的长度相关，但我们的观察表明，我们的模型不会产生冗长的响应来操纵LLM法官的偏见。Qwen1. 5-在AlpacaEval上聊天2. 0仅为1618，与GPT-4的长度一致，比GPT-4-Turbo的长度短。

此外，我们对网络服务和应用程序的实验还表明，用户更喜欢新聊天模型的大多数响应。基础模型的多语言理解我们精心选择了来自欧洲、东亚和东南亚的12种语言，以彻底评估我们基础模型的多语言能力。

为了实现这一目标，我们从社区的开源存储库中策划了测试集，涵盖四个不同的维度：考试、理解、翻译和数学。下表提供了有关每个测试集的详细信息，包括评估设置、指标及其包含的语言：详细结果如下所示：Qwen 1的基础模型。

5展示了令人印象深刻的多语言能力，其在12种不同语言中的表现就证明了这一点。在涵盖考试、理解、翻译和数学等各个维度的评估中，Qwen 1。

5始终提供强劲的结果。从阿拉伯语、西班牙语和法语等语言到日语、韩语和泰文，Qwen 1。5展示了其理解和生成跨不同语言背景的高质量内容的能力。我们比较了Qwen 1。5- 72 B-与GPT-3聊天。

5，结果如下：这些结果证明了Qwen 1强大的多语言能力。5种聊天模型，可服务于翻译、语言理解、多语言聊天等下游应用。此外，我们相信多语言能力的改进也可以提升总体能力。

长期背景的支持随着对长上下文理解的需求不断增加，我们扩展了所有模型的能力，以支持多达32 K个代币的上下文。我们已经评估了Qwen 1的性能。L-Eval基准上的5个模型，该基准衡量模型基于长期上下文生成响应的能力。

结果如下：从性能来看，即使是Qwen 1这样的小型号。5- 7 B-Chat展示了与GPT-3的竞争性能。5个任务中有4个。我们最好的模特，Qwen 1. 5- 72 B-Chat，显著优于GPT 3。

5-turbo-16 k，仅略落后于GPT 4 - 32 k。这些结果凸显了我们在32 K代币中的出色表现，但并不意味着我们的模型仅限于仅支持32 K代币。您可以修改max_location_embedding和滑动窗口在配置中。

JSON调整到更大的值，以查看模型性能是否仍然满足您的任务。与外部系统连接的能力大型语言模型（LLM）之所以受欢迎，部分原因是它们能够集成外部知识和工具。检索增强一代（RAG）因缓解幻觉、实时数据短缺和私人信息处理等常见LLM问题而受到关注。

此外，强大的LLM通常擅长通过函数调用使用API和工具，这使得它们非常适合充当人工智能代理。我们首先评估Qwen 1的性能。5-在RB上聊天，这是一个RAG基准测试，我们尚未对其进行任何具体优化：然后，我们通过在T-Eval基准上进行测试来评估Qwen作为通用代理的能力。

没有一个

原文出处

本文为机器翻译辅以 AI 润色，仅供参考。原始事实以原文为准。

相关阅读