Qwen2.5-1M：开源百万token上下文模型与推理框架

Qwen Team Blog·超过 1 年前·约 8 分钟阅读

技术报告HuggingFace模型Scope Qwen聊天HuggingFace演示模型Scope演示DISCORD介绍升级Qwen 2两个月后。5-Turbo支持高达100万个代币的上下文长度，我们又推出了开源Qwen 2。

5- 1 M模型及相应的推理框架支持。以下是您可以从此版本中获得的内容：开源模型：我们发布了两个新的检查点Qwen 2。5- 7 B-指令-1M和Qwen 2。5- 14 B-Direct-1 M，标志着我们首次升级开源Qwen模型以处理1 M代币上下文。

推理框架：帮助开发人员部署Qwen 2。为了更有效地提高5- 1 M系列模型，我们完全开源了基于vLLM的推理框架。通过与稀疏注意力方法的集成，我们的框架可以以3倍到7倍的速度处理1兆令牌输入。

技术报告：我们还分享了Qwen 2背后的技术细节。5- 1 M系列，包括训练和推理框架的设计见解以及消融实验。您可以体验Qwen 2。5- 100万个模型在线访问Huggingface和Modelscope上的演示。

此外，我们最近还推出了Qwen Chat，这是Qwen系列中的高级人工智能助手。通过Qwen Chat，您可以进行对话、编写代码、执行搜索、生成图像和视频以及使用各种工具。值得注意的是，Qwen Chat还包含Qwen 2。

5-Turbo模型，支持长上下文处理，上下文长度高达1 M个令牌。

模型性能让我们从Qwen 2的表现开始。5- 1 M系列模型，涵盖长上下文和短文本任务。长上下文任务首先，我们评估Qwen 2。Passkey检索任务上的5- 1 M个模型，上下文长度为100万个令牌。

结果表明，这些模型可以从包含多达100万个令牌的文档中准确地检索隐藏信息，在7 B模型中仅观察到较小的错误。对于更复杂的长上下文理解任务，我们选择本博客中使用的RULER、LV-Eval、LongbenchChat。

从这些结果中，我们可以得出一些关键结论：- 明显优于128 k版本：Qwen 2。5- 1 M系列模型在大多数长上下文任务中显着优于128 K系列模型，尤其是对于长度超过64 K的序列。- 显着的性能优势：Qwen 2。

5- 14 B-Direct-1 M型号不仅击败了Qwen 2。5-Turbo在多个数据集中的性能始终优于GPT-4 o-mini，为长上下文任务提供了强大的开源替代方案。短上下文任务除了长序列上的性能之外，我们还对这些模型如何处理短序列同样感兴趣。

所以，我们比较Qwen 2。5- 1 M型号及其128 K版本的广泛使用的学术基准，在GPT-4 o-mini的比较扔。以下是我们的发现：- 两个Qwen 2. 5- 7 B-指令-1M和Qwen 2。

5- 14 B-Direct-1 M在短文本任务上保持与其128 K版本类似的性能，确保基本功能不会因添加长序列处理能力而受到损害。- 与GPT-4 o-mini相比，Qwen 2. 5- 14B-Direct-1 M和Qwen 2。

5-Turbo在短文本任务上实现了类似的性能，同时支持八倍长的上下文长度。关键技术在这里，我们将简单介绍构建Qwen 2背后的关键技术。5- 1 M。欲了解更多详细信息，请查看我们的技术报告。

长期背景培训使用长序列进行训练需要大量的计算资源，因此我们采用渐进的方法来扩展Qwen 2的上下文长度。5- 1 M通过多个阶段：- 我们从预先训练的Qwen 2的中间检查点开始。5，它具有4K令牌上下文长度。

- 在预训练中，我们将上下文长度从4K逐渐增加到256 K，同时使用调整后的基本频率，将RoPE基数从10，000提高到10，000，000。

- 在监督微调中，我们将其分为两个阶段，以保留较短序列的性能：- 第1阶段：仅对短指令（最多32 K令牌）进行微调，使用与Qwen 2的128 K版本相同的数据和步骤。

5. - 阶段2：混合短指令（最高32 K）和长指令（最高256 K），以增强长上下文任务性能，同时保持短任务质量。

- 在强化学习中，我们在高达8 K个令牌的短文本上训练模型，这充分改善了与人类偏好的一致性，并很好地推广到长上下文任务。最终的描述优化模型能够处理最多256 K个令牌的序列。长度外推在训练期间，我们开发了一个上下文长度为256 K令牌的描述调整模型。

为了将其扩展到1 M个代币，我们使用了长度外推技术。基于RoPE的LLM在长上下文任务中的退化主要是由于在计算注意力权重时查询和键之间不可见的较大相对位置距离。我们采用双块注意力（DSA），它通过将相对位置重新映射到较小的值来解决这个问题，避免训练期间看不到的大距离。

我们评估Qwen 2。5- 1 M模型及其128 K对应模型，采用和不采用长度外推方法。我们可以找到：即使是仅在32 K代币上训练的模型，例如Qwen 2。5- 7 B-Direct，在具有1 M令牌上下文的密钥检索任务中实现近乎完美的准确性。

这凸显了BCA在无需任何培训的情况下扩展支持的上下文长度的非凡能力。分散的注意力对于长上下文语言模型，推理速度对于用户体验至关重要。我们引入了一种基于M推理的稀疏注意力机制来加速预填充阶段。

此外，我们提出了几项改进：与Chunked Prefill集成：直接处理1 M个令牌序列会导致将激活存储在MLP层中的大量内存负担，从而在Qwen 2中消耗71 GB的VRAM。5- 7 B。

通过与块长度为32，768个令牌的块预填充集成，激活VRAM使用量减少了96。7%，导致内存消耗大幅下降。与长度外推集成：我们在长上下文处理中将BCA与M推理集成，从而提高推理效率并实现更高的准确性。

长序列的稀疏细化：MInfertion需要离线搜索来确定每个注意头的最佳稀疏配置。由于全注意力权重的计算需求，这种搜索通常在短序列上进行，这可能无法很好地推广到更长的序列。

我们开发了一种专门针对多达1 M个令牌的序列来细化稀疏配置的方法，这显着减少了稀疏注意力带来的准确性损失。更多优化：我们引入了额外的优化，例如增强的内核效率和动态分块管道并行性，以充分释放整个框架的潜力。

有了这些增强功能，我们的推理框架的结果在3。2x到6对于1 M令牌长度的序列，在不同的模型大小和GPU设备上，预填充速度加快7倍。部署Qwen 2。

5- 100万个本地型号在这里，我们提供了部署Qwen 2的分步说明。您的本地设备上有5- 100万个型号。1.系统准备为了实现最佳性能，我们建议使用具有Ampere或Hopper架构的图形处理器，这些图形处理器支持优化的内核。

确保您的系统满足以下要求：- CUDA版本：12。1或12。3- Python版本：>=3。9和<=3。12处理100万个令牌序列的VRAM要求：- Qwen 2. 5- 7 B-Direcct-1 M：至少120 GB VRAM（整个图形处理器的总数）。

- Qwen 2. 5- 14 B-Direcct-1 M：至少320 GB VRAM（整个图形处理器的总数）。如果您的图形处理器没有足够的VRAM，您仍然可以使用Qwen 2。5- 100万个型号用于较短的任务。

2.安装附属机构目前，您需要从我们的自定义分支克隆vLLM存储库并手动安装。我们正在努力将我们的分支机构合并到主要的vLLM项目中。git clone -b dev/d

原文出处

本文为机器翻译辅以 AI 润色，仅供参考。原始事实以原文为准。

相关阅读