AI 见闻

Qwen1.5简介

Qwen Team Blog··约 7 分钟阅读

GABRIB拥抱脸模型镜演示DISCORD介绍近几个月来,我们的重点一直是开发“好”模型,同时优化开发人员体验。当我们迈向Qwen 1时。5,我们Qwen系列的下一个版本,此更新将在农历新年之前发布。

与Qwen 1。5,我们是六种规模的开源基础和聊天模型:0。5B,1。8B、4 B、7 B、14 B、32 B、72 B和110 B,以及MoE模型(请参阅博客了解更多信息)。

按照传统,我们还提供量化模型,包括Int 4和Int 8 GPTQ模型,以及AWQ和GGUF量化模型。为了增强开发人员体验,我们合并了Qwen 1。5的代码进入Hugging Face变压器,使其可以通过变压器'=4访问。

37. 0无需trust_remote_code.我们与vLLM、SGLang用于部署、AutoAWQ、AutoGPTQ用于量化、Axolotl、LLaMA-Factory用于微调和lama等框架合作。

cpp用于本地LLM推断,所有这些现在都支持Qwen 1。5. Qwen 1。5系列可在Olama和LMStudio等平台上使用。此外,API服务不仅在DashScope上提供,还在一起提供。

ai,具有全球可访问性。请访问此处开始,我们建议尝试Qwen 1。5- 72 B-chat。该版本极大地改进了聊天模型与人类偏好的一致性,并增强了多语言功能。所有模型现在统一支持高达32768个令牌的上下文长度。

基础语言模型的质量也有一些小的改进,这可能会有利于您的微调工作。这一步代表着我们朝着创建真正“好”模型的目标迈出了一小步。性能更好地了解Qwen 1的性能。

5、我们对基础模型和聊天模型的不同能力进行了全面评估,包括语言理解、编码、推理、多语言能力、人类偏好、代理、检索增强生成(RAG)等基本能力。

基本能力为了评估语言模型的基本能力,我们对传统基准进行了评估,包括MMLU(5-shot)、C-Eval、Humaneval、GS 8 K、BBH等。在每个模型尺寸下,Qwen 1. 5在不同的评估基准中表现出色。

特别是Qwen 1. 5- 72 B在所有基准测试中的表现都优于Llama 2 - 70 B,展示了其在语言理解、推理和数学方面的卓越能力。鉴于最近人们对小型语言模型的兴趣激增,我们对Qwen 1进行了比较。

5,尺寸小于70亿个参数,与社区内最优秀的小规模模型进行对比。结果如下:我们可以自信地断言Qwen 1. 70亿个参数下的5个基础模型与社区领先的小规模模型具有高度竞争力。

未来,我们将继续提高小型号的质量,探索将大型号固有的先进能力有效转化为小型号的方法。符合人类偏好对齐旨在增强LLM的描述遵循能力,并帮助提供与人类偏好密切一致的响应。

认识到将人类偏好整合到学习过程中的重要性,我们有效地采用了直接策略优化(DPO)和近端策略优化(PPO)等技术来调整最新的Qwen系列。然而,评估此类聊天模型的质量构成了重大挑战。诚然,虽然全面的人类评估是最佳方法,但它面临着与可扩展性和可重复性相关的重大挑战。

因此,我们最初在两个广泛使用的基准上评估我们的模型,并利用先进的LLM作为评委:MT-Bench和Alpaca-Eval。结果如下:我们注意到MT-Bench的分数存在不可忽视的差异。因此,我们在结果中使用不同种子进行了三次运行,并报告平均分和标准差。

尽管仍然明显落后于最大的开源Qwen 1 GPT-4-Turbo。5型号,Qwen 1。5- 72 B-Chat,表现出卓越的性能,超过Claude-2。1、GPT-3。

5-Turbo-0613、Mixtral-8x 7 b-instruction和TULU 2 DPO 70 B,在MT-Bench和Alpaca-Eval v2上与Mistral Medium不相上下。

此外,虽然LLM法官的评分似乎与响应的长度相关,但我们的观察表明,我们的模型不会产生冗长的响应来操纵LLM法官的偏见。Qwen1. 5-在AlpacaEval上聊天2. 0仅为1618,与GPT-4的长度一致,比GPT-4-Turbo的长度短。

此外,我们对网络服务和应用程序的实验还表明,用户更喜欢新聊天模型的大多数响应。基础模型的多语言理解我们精心选择了来自欧洲、东亚和东南亚的12种语言,以彻底评估我们基础模型的多语言能力。

为了实现这一目标,我们从社区的开源存储库中策划了测试集,涵盖四个不同的维度:考试、理解、翻译和数学。下表提供了有关每个测试集的详细信息,包括评估设置、指标及其包含的语言:详细结果如下所示:Qwen 1的基础模型。

5展示了令人印象深刻的多语言能力,其在12种不同语言中的表现就证明了这一点。在涵盖考试、理解、翻译和数学等各个维度的评估中,Qwen 1。

5始终提供强劲的结果。从阿拉伯语、西班牙语和法语等语言到日语、韩语和泰文,Qwen 1。5展示了其理解和生成跨不同语言背景的高质量内容的能力。我们比较了Qwen 1。5- 72 B-与GPT-3聊天。

5,结果如下:这些结果证明了Qwen 1强大的多语言能力。5种聊天模型,可服务于翻译、语言理解、多语言聊天等下游应用。此外,我们相信多语言能力的改进也可以提升总体能力。

长期背景的支持随着对长上下文理解的需求不断增加,我们扩展了所有模型的能力,以支持多达32 K个代币的上下文。我们已经评估了Qwen 1的性能。L-Eval基准上的5个模型,该基准衡量模型基于长期上下文生成响应的能力。

结果如下:从性能来看,即使是Qwen 1这样的小型号。5- 7 B-Chat展示了与GPT-3的竞争性能。5个任务中有4个。我们最好的模特,Qwen 1. 5- 72 B-Chat,显著优于GPT 3。

5-turbo-16 k,仅略落后于GPT 4 - 32 k。这些结果凸显了我们在32 K代币中的出色表现,但并不意味着我们的模型仅限于仅支持32 K代币。您可以修改max_location_embedding和滑动窗口在配置中。

JSON调整到更大的值,以查看模型性能是否仍然满足您的任务。与外部系统连接的能力大型语言模型(LLM)之所以受欢迎,部分原因是它们能够集成外部知识和工具。检索增强一代(RAG)因缓解幻觉、实时数据短缺和私人信息处理等常见LLM问题而受到关注。

此外,强大的LLM通常擅长通过函数调用使用API和工具,这使得它们非常适合充当人工智能代理。我们首先评估Qwen 1的性能。5-在RB上聊天,这是一个RAG基准测试,我们尚未对其进行任何具体优化:然后,我们通过在T-Eval基准上进行测试来评估Qwen作为通用代理的能力。

没有一个

原文出处
Introducing Qwen1.5

本文为机器翻译辅以 AI 润色,仅供参考。原始事实以原文为准。