Qwen1.5-110B：Qwen1.5系列首个超千亿参数模型

Qwen Team Blog·超过 2 年前·约 2 分钟阅读

GABRIB拥抱脸模型镜演示DISCORD介绍最近，我们在开源社区中目睹了一系列包含超过1000亿个参数的大规模模型。这些模型在基准评估和聊天机器人领域都表现出了卓越的性能。今天，我们发布了Qwen 1的首款100 B+型号。

5系列，Qwen 1。5- 110 B，在基础型号评测中与Meta-Lama 3 - 70 B表现相当，在聊天评测中表现出色，包括MT-Bench和AlpacaEval 2。0.模型特征Qwen 1. 5- 110 B与其他Qwen 1类似。

5个型号，采用相同的Transformer解码器架构构建。它由分组查询关注（GQA）组成，并且可以高效地提供模型服务。该模型支持上下文长度为32 K的令牌，并且该模型仍然是多语言，支持英语、中文、法语、西班牙语、德语、俄语、韩语、日语、越南语、阿拉伯语等大量语言。

模型质量我们对基础语言模型进行了一系列评估，并与Meta-Lama 3 - 70 B、最新的SOTA语言模型以及Mixtral-8x 22 B进行了比较。上述结果表明，新款110 B型号至少在基础能力方面与Lama-3- 70 B型号具有竞争力。

就该模型而言，我们没有大幅改变训练前和训练后的配方，因此我们相信与72 B相比的性能改进来自于模型尺寸的增加。

我们还在MT-Bench和AlpacaEval 2上测试了聊天模型。0.与之前发布的72 B型号相比，在聊天型号的两项基准评测中，110 B的表现明显更好。评估的一致改进表明，即使不太改变训练后食谱，更强大、更大的基础语言模型也可以产生更好的聊天模型。

使用Qwen 1开发。5- 110 B我们建议您阅读我们的Qwen 1博客。5了解变形金刚、vLLM、美洲驼的用法。cpp、Ollama、LMStudio、SkyPilot、Axolotl、LLaMA-Factory等。

结论Qwen 1。5- 110 B是Qwen 1中最大的型号。5系列，也是该系列中第一个参数超过1000亿个的系列。它与最近发布的SOTA型号Llama-3- 70 B相比表现出竞争力，并且明显优于72 B型号。

这告诉我们，模型尺寸缩放仍有很大空间以获得更好的性能。虽然Lama-3的不安表明了将数据扩展到超大规模的重要性，但我们相信，通过在未来的版本中扩展数据和模型大小，我们可以两全其美。请继续关注Qwen 2！

引文@misc{qwen 1. 5,title = {介绍Qwen 1. 5}，url = {https：//qwenlm。GitHub. io/blog/qwen 1。5/}，作者= {Qwen Team}，月= {二月}，年= {2024}}

原文出处

本文为机器翻译辅以 AI 润色，仅供参考。原始事实以原文为准。

相关阅读