精选· 重要性 4/5

Qwen1.5-32B发布：平衡性能与资源消耗的30B参数模型

Qwen Team Blog·超过 2 年前·约 3 分钟阅读

中文导读

Qwen团队发布Qwen1.5-32B及对话版，该模型在性能与资源消耗间取得平衡，为14B模型能力不足和72B模型推理成本高的问题提供了中间解决方案。

GitHub Hugging Face ModelScope Demo Discord介绍开源社区长期以来一直在寻找一种在性能、效率和内存占用之间取得理想平衡的模型。

尽管出现了Qwen1.5-72B和DBRX等前沿模型，但这些模型仍面临内存消耗大、推理速度慢、微调成本高等持续挑战。该领域内越来越多的共识指出，大约300亿参数的模型是实现强大性能和可管理资源需求的最佳“甜蜜点”。

为了顺应这一趋势，我们自豪地推出Qwen1.5语言模型系列的最新成员：Qwen1.5-32B和Qwen1.5-32B-Chat。过去几个月里，我们精心开发了Qwen1.5-32B基础模型，力求达到甚至超越最先进的30B模型设定的性能基准。

同时，我们在训练后技术方面取得了进展，特别是在RLHF方面，以提升Qwen1.5-32B-Chat的对话能力。模型质量Qwen1.5-32B是Qwen1.5语言模型系列的新成员，除了模型大小外，模型架构几乎完全相同，仅增加了分组查询注意力（GQA）。

因此，它在模型服务中具有更高效推理性能的潜力。

这里我们提供了与约30B参数或更大尺寸模型的SOTA在基础能力评估、聊天评估和多语言评估方面的性能对比。下面报告基础语言模型的能力评估：我们的32B模型在MMLU、GSM8K、HumanEval和BBH等多种任务上展现出具有竞争力的性能。

与72B参数模型相比，Qwen1.5-32B性能略有下降，但在大多数任务上仍优于其他30B模型，如Llama2-34B和Mixtral-8x7B。在聊天模型方面，我们遵循Qwen1.5的评估方案，在MT-Bench和Alpaca-Eval 2.0上测试其性能。

结果如下：值得注意的是，Qwen1.5-32B-Chat得分超过8分，且与Qwen1.5-72B-Chat的差距相对较小。这一结果表明，对于需要更高效、更具成本效益的聊天应用解决方案的用户来说，32B模型是一个可行的替代方案。

我们还测试了Qwen1.5-32B在12种语言上的多语言能力，包括阿拉伯语、西班牙语、法语、葡萄牙语、德语、意大利语、俄语、日语、韩语、越南语、泰语和印度尼西亚语，涵盖考试、理解、数学和翻译等领域。

结果如下：详细结果如下所示：与其他Qwen1.5模型类似，

32B模型也具备不错的多语言能力，且略逊于72B模型。最后，我们来看它在长上下文评估“大海捞针”中的表现。我们很高兴地看到，它能够在32K token的上下文中实现顶级性能。

使用Qwen1.5-32B进行开发我们建议您阅读Qwen1.5的博客，了解如何使用Transformers、vLLM、llama.cpp、Ollama等工具。结论我们发布了中等规模的模型Qwen1.5-32B及其对话版本。

这些模型所需内存占用少得多，运行速度也显著快于72B模型。我们希望此次发布能帮助用户为其下游应用找到更好的解决方案，以解决14B模型能力弱（尤其是在智能体场景中）和72B模型推理成本高的问题。

引用@misc{qwen1.5,title = {Introducing Qwen1.5},url = {https://qwenlm.github.io/blog/qwen1.5/},author = {Qwen Team},month = {February},

year = {2024}}

原文出处

本文为机器翻译辅以 AI 润色，仅供参考。原始事实以原文为准。

相关阅读