Qwen 2.5-LLM:扩展LLM的边界
GABRIB拥抱脸模型镜演示DISCORD介绍在这个博客中,我们深入研究了我们最新的Qwen 2的细节。5系列语言模型。我们开发了一系列仅限解码器的密集模型,其中七个是开源的,从0. 5 B至72 B参数。
我们的研究表明,用户对10- 30 B范围内用于生产的型号以及用于移动应用的3B型号感兴趣。为了满足这些需求,我们开源了Qwen 2。5-3B,Qwen 2。5- 14 B和Qwen 2。5- 32 B。
此外,我们很高兴通过阿里云模型工作室的API服务提供更多型号,包括Qwen-Plus和Qwen-Turbo。
与Qwen 2系列相比,Qwen 2. 5系列有以下升级:全面开源:考虑到用户对用于生产的10- 30 B系列型号和用于移动应用的3B型号有浓厚兴趣,Qwen 2. 5、除了继续开源0. 5/1.与Qwen 2同等尺寸的5/7/72 B,
还增加了Qwen 2的两款中型性价比车型。5- 14 B和Qwen 2。5- 32 B和一款名为Qwen 2的移动端型号。5-3B。与同级别的开源模型相比,所有模型都具有很强的竞争力。例如,Qwen 2。
5- 32 B击败Qwen 2 - 72 B和Qwen 2。在我们的综合评价中,5- 14 B优于Qwen 2 - 57 B-A14 B。
更大、更高质量的预训练数据集:预训练数据集的大小从7万亿令牌扩展到最大18万亿令牌。知识提升:Qwen 2. 5、获得了更多的知识。在MMLU基准测试中,Qwen 2. 5-7/72 B从70提高。
3到74。2和84。2比86。1与Qwen 2 -7/72 B相比。我们观察到Qwen 2. 5还对GPQA/MMLU-Pro/MMLU-redux/ARC-c基准进行了显着改进。编码增强:得益于Qwen 2的技术突破。
5-Coder,Qwen 2。5大大提高了编码能力。Qwen 2. 5- 72 B-Direct达到55。5、75。1和88。
LiveCodeBench(2305-2409)、MultiPL-E和MBPP上的得分分别为2分,优于Qwen 2 - 72 B-Direct的32分。2、69。2和80。2.数学增强:整合Qwen 2-math的技术后,Qwen 2的数学能力。
5也得到了迅速改善。在MAT基准上,Qwen 2. 5- 7 B/72 B-指令从52个增加。9/69. 0的Qwen 2 - 7 B/72 B-指令为75。5/83. 1.更好的人类偏好:Qwen 2。
5能够产生更符合人类偏好的响应。具体来说,Qwen 2的Arena-Hard得分。5- 72 B-指令从48个显著增加。1到81 2,MT-Bench评分从9提高。12比9。35,与Qwen 2 - 72 B-Direct相比。
其他核心能力增强:Qwen 2。
5在指令遵循、生成长文本(从1 k增加到超过8 k个令牌)、理解结构化数据(例如G.、表),并生成结构化输出,尤其是JNON。此外,Qwen 2. 5个模型通常对系统提示的多样性更具弹性,增强了聊天机器人的角色扮演实施和条件设置。
模卡这是一张模型卡,详细介绍了Qwen 2的关键参数。5个LLM模型。此版本包括七个开源模型,大小从0。5 B到72 B大多数模型支持128 K(131,072)令牌的上下文长度,并可以生成多达8 K的令牌,从而可以生成大量的文本输出。
这些模型中的大多数都是在Apache 2下授权的。0,而Qwen 2。5-3B和Qwen 2。5- 72 B分别受Qwen研究许可证和Qwen许可证管辖。性能本节介绍了各种基准评估中基本语言模型和描述优化模型的性能指标,涵盖了各种领域和任务。
Qwen 2. 5基础语言模型评估基础模型的评估主要强调它们在自然语言理解、一般问题回答、编码、数学、科学知识、推理和多语言能力方面的表现。
评估数据集包括:一般任务:MMLU(5次)、MMLU-Pro(5次)、MMLU-redux(5次)、BBH(3次)、ARC-C(25次)、TruthfulQA(0次)、Winogrande(5次)、HellaSwag(10次)数学与科学任务:GPQA(5次)、
Theorem QA(5次)、
GMS 8 K(4次)、MAT(4次)编码任务:HumanEval(0-shot),HumanEval+(0-shot),MBPP(0-shot),MBPP+(0-shot),MultiPL-E(0-shot)(Python,C++,JAVA,PHP,
TypeScript,
C#,Bash,JavaScript)多语言任务:多项考试(M3考试5次、IndoMMLU 3次、ruMMLU 5次、mMMLU 5次)、多项理解(BELEBELE 5次、XCOPA 5次、XWinograd 5次、XStoryCloze 0次、PAWS-X 5次)、
多项数学(MGSM 8次)、多项翻译(Flores-101 5次)Qwen 2. 5- 72 B性能Qwen 2。5- 72 B基本型号在各种任务中的表现显着优于同类别的同行。它的结果与Llama-3- 405 B相当,但仅利用五分之一的参数。
此外,与其前身Qwen 2 - 72 B相比,Qwen 2。5- 72 B在几乎所有基准评估中都显示出显着改进,特别是在一般任务、数学和编码挑战方面表现出色。
Qwen 2. 5- 14 B/32 B性能Qwen2. 5- 14 B模型在各种任务中表现出色,特别是在MMLU和BBH等一般任务中表现出色,得分为79分。7和78。2、超越规模更大的竞争对手。
与此同时,Qwen 2.
特别是5- 32 B,展示了卓越的功能,通常超过了类似型号尺寸的较大型号。值得注意的是,它的表现优于其前身Qwen 1。5- 32 B显着,尤其是在数学和编码等具有挑战性的领域,显着得分为57。
数学中7,84。MBPP中5。Qwen 2. 5- 7 B性能Qwen2.尽管非嵌入参数较少,但5- 7 B模型在众多基准测试中超越了其前辈和同行。它展示了各项任务的显着改进,达到了74。2关于MMLU等一般基准,49。
8是数学挑战,例如数学,57。9关于HumanEval等编码任务。Qwen 2. 5-0. 5B/1。5 B/3B性能对于边缘侧型号,Qwen 2. 5-0. 5B,1。5 B和3B在几乎所有基准上继续保持强劲的表现。
值得注意的是,Qwen 2. 5-0. 5 B型号的性能优于Gemma 2 -2。6 B关于各种数学和编码任务。指导调整的模型评估描述调优模型的评估主要关注自然语言理解、一般问题回答、推理、编码、数学、指令遵循、人类对齐等的模型性能。
评估的数据集包括:一般任务:MMLU-Pro、MMLU-redux数学与科学任务:GPQA、GSM 8 K、MAT编码任务:HumanEval、MBPP、MultiPL-E、LiveCodeBench 2305-2409、LiveBench 0831指令和对齐任务:
IFeval严格提示、Arena-Hard、AlignBench v1。1、MT长凳Qwen 2. 5- 72 B-指导表现Qwen2.
5- 72 B-Direcut型号具有卓越的性能,甚至超过了更大的Lama-3。1- 405 B用于多个关键任务。Qwen 2. 5- 72 B-讲师擅长数学(数学:83. 1)、编码(LiveCodeBench:55。
5),并聊天(Arena Hard:81。2)。与其基础型号Qwen 2相比。5- 72 B及其前身Qwen 2 - 72 B-Direct,Qwen 2。5- 72 B-Direct展示了所有任务的全面改进。
Qwen-Turbo和Qwen 2。5- 14B-Direct & Qwen 2。5- 32 B-指导表现Qwen2.与类似规模的其他型号相比,5- 32 B-Direcut型号在大多数任务中表现出卓越的性能。
与GPT-4 o-mini相比,我们的开源模型Qwen 2。5- 14 B-Direct以及我们的API模型Qwen-Turbo还在所有基准测试中提供有竞争力的结果。
Qwen 2. 5- 7 B-指导表现Qwen2. 5- 7 B-Direct型号的表现显着优于竞争对手Gemma 2 - 9 b-IT和Llama 3。1- 8B-指令,涵盖除IFeval之外的所有任务。
值得注意的是,Qwen 2. 5- 7 B-Direct在数学方面表现出明显的优势(数学:75. 5)和代码