Qwen1.5-32B发布:平衡性能与资源消耗的30B参数模型
Qwen团队发布Qwen1.5-32B及对话版,该模型在性能与资源消耗间取得平衡,为14B模型能力不足和72B模型推理成本高的问题提供了中间解决方案。
GitHub Hugging Face ModelScope Demo Discord介绍开源社区长期以来一直在寻找一种在性能、效率和内存占用之间取得理想平衡的模型。
尽管出现了Qwen1.5-72B和DBRX等前沿模型,但这些模型仍面临内存消耗大、推理速度慢、微调成本高等持续挑战。该领域内越来越多的共识指出,大约300亿参数的模型是实现强大性能和可管理资源需求的最佳“甜蜜点”。
为了顺应这一趋势,我们自豪地推出Qwen1.5语言模型系列的最新成员:Qwen1.5-32B和Qwen1.5-32B-Chat。过去几个月里,我们精心开发了Qwen1.5-32B基础模型,力求达到甚至超越最先进的30B模型设定的性能基准。
同时,我们在训练后技术方面取得了进展,特别是在RLHF方面,以提升Qwen1.5-32B-Chat的对话能力。模型质量Qwen1.5-32B是Qwen1.5语言模型系列的新成员,除了模型大小外,模型架构几乎完全相同,仅增加了分组查询注意力(GQA)。
因此,它在模型服务中具有更高效推理性能的潜力。
这里我们提供了与约30B参数或更大尺寸模型的SOTA在基础能力评估、聊天评估和多语言评估方面的性能对比。下面报告基础语言模型的能力评估:我们的32B模型在MMLU、GSM8K、HumanEval和BBH等多种任务上展现出具有竞争力的性能。
与72B参数模型相比,Qwen1.5-32B性能略有下降,但在大多数任务上仍优于其他30B模型,如Llama2-34B和Mixtral-8x7B。在聊天模型方面,我们遵循Qwen1.5的评估方案,在MT-Bench和Alpaca-Eval 2.0上测试其性能。
结果如下:值得注意的是,Qwen1.5-32B-Chat得分超过8分,且与Qwen1.5-72B-Chat的差距相对较小。这一结果表明,对于需要更高效、更具成本效益的聊天应用解决方案的用户来说,32B模型是一个可行的替代方案。
我们还测试了Qwen1.5-32B在12种语言上的多语言能力,包括阿拉伯语、西班牙语、法语、葡萄牙语、德语、意大利语、俄语、日语、韩语、越南语、泰语和印度尼西亚语,涵盖考试、理解、数学和翻译等领域。
结果如下:详细结果如下所示:与其他Qwen1.5模型类似,
32B模型也具备不错的多语言能力,且略逊于72B模型。最后,我们来看它在长上下文评估“大海捞针”中的表现。我们很高兴地看到,它能够在32K token的上下文中实现顶级性能。
使用Qwen1.5-32B进行开发我们建议您阅读Qwen1.5的博客,了解如何使用Transformers、vLLM、llama.cpp、Ollama等工具。结论我们发布了中等规模的模型Qwen1.5-32B及其对话版本。
这些模型所需内存占用少得多,运行速度也显著快于72B模型。我们希望此次发布能帮助用户为其下游应用找到更好的解决方案,以解决14B模型能力弱(尤其是在智能体场景中)和72B模型推理成本高的问题。
引用@misc{qwen1.5,title = {Introducing Qwen1.5},url = {https://qwenlm.github.io/blog/qwen1.5/},author = {Qwen Team},month = {February},
year = {2024}}
本文为机器翻译辅以 AI 润色,仅供参考。原始事实以原文为准。