Qwen 1.5 - 110 B:Qwen 1.5系列首款100 B+型号
GABRIB拥抱脸模型镜演示DISCORD介绍最近,我们在开源社区中目睹了一系列包含超过1000亿个参数的大规模模型。这些模型在基准评估和聊天机器人领域都表现出了卓越的性能。今天,我们发布了Qwen 1的首款100 B+型号。
5系列,Qwen 1。5- 110 B,在基础型号评测中与Meta-Lama 3 - 70 B表现相当,在聊天评测中表现出色,包括MT-Bench和AlpacaEval 2。0.模型特征Qwen 1. 5- 110 B与其他Qwen 1类似。
5个型号,采用相同的Transformer解码器架构构建。它由分组查询关注(GQA)组成,并且可以高效地提供模型服务。该模型支持上下文长度为32 K的令牌,并且该模型仍然是多语言,支持英语、中文、法语、西班牙语、德语、俄语、韩语、日语、越南语、阿拉伯语等大量语言。
模型质量我们对基础语言模型进行了一系列评估,并与Meta-Lama 3 - 70 B、最新的SOTA语言模型以及Mixtral-8x 22 B进行了比较。上述结果表明,新款110 B型号至少在基础能力方面与Lama-3- 70 B型号具有竞争力。
就该模型而言,我们没有大幅改变训练前和训练后的配方,因此我们相信与72 B相比的性能改进来自于模型尺寸的增加。
我们还在MT-Bench和AlpacaEval 2上测试了聊天模型。0.与之前发布的72 B型号相比,在聊天型号的两项基准评测中,110 B的表现明显更好。评估的一致改进表明,即使不太改变训练后食谱,更强大、更大的基础语言模型也可以产生更好的聊天模型。
使用Qwen 1开发。5- 110 B我们建议您阅读我们的Qwen 1博客。5了解变形金刚、vLLM、美洲驼的用法。cpp、Ollama、LMStudio、SkyPilot、Axolotl、LLaMA-Factory等。
结论Qwen 1。5- 110 B是Qwen 1中最大的型号。5系列,也是该系列中第一个参数超过1000亿个的系列。它与最近发布的SOTA型号Llama-3- 70 B相比表现出竞争力,并且明显优于72 B型号。
这告诉我们,模型尺寸缩放仍有很大空间以获得更好的性能。虽然Lama-3的不安表明了将数据扩展到超大规模的重要性,但我们相信,通过在未来的版本中扩展数据和模型大小,我们可以两全其美。请继续关注Qwen 2!
引文@misc{qwen 1. 5,title = {介绍Qwen 1. 5},url = {https://qwenlm。GitHub. io/blog/qwen 1。5/},作者= {Qwen Team},月= {二月},年= {2024}}