Qwen2.5-Turbo发布:上下文长度扩展至100万token
阿里云发布Qwen2.5-Turbo,将上下文长度从128k扩展至100万token,推理速度提升4.3倍,在长文本基准RULER上超越GPT-4,且短文本能力与GPT-4o-mini相当。
API文档(中文) HuggingFace演示 ModelScope演示介绍在Qwen2.5发布后,我们听到了社区对处理更长上下文的需求。近几个月来,我们对超长上下文的模型能力和推理性能进行了许多优化。
今天,我们很自豪地介绍新的Qwen2.5-Turbo版本,其特点包括:- 更长的上下文支持:我们将模型的上下文长度从128k扩展到1M,大约相当于100万个英语单词或150万个中文字符,相当于10部长篇小说、150小时的语音转录文本或3万行代码。
该模型在1M长度的Passkey检索任务中实现了100%的准确率,在长文本评估基准RULER上得分为93.1,超过GPT-4的91.6和GLM4-9B-1M的89.9。此外,该模型在短序列能力方面保持了非常强的竞争力,与GPT-4o-mini相当。
- 更快的推理速度:使用稀疏注意力机制,我们成功地将处理1M token上下文的首次token生成时间从4.9分钟缩短到68秒,实现了4.3倍的加速。- 更低的成本:价格仍为每1M token 0.3元人民币。
在相同成本下,Qwen2.5-Turbo可以处理的token数量是GPT-4o-mini的3.6倍。现在,您可以通过阿里云模型工作室的API服务(中文),或通过HuggingFace演示或ModelScope演示来使用它。
演示我们准备了一些演示来展示Qwen2.5-Turbo带来的新用途,涵盖长篇小说的深入理解、仓库级代码助手以及阅读多篇论文。[上传《三体》三部曲的三本中文小说,包含690k token。
]用英语提供这三部小说的情节摘要您提到的“地球往事”系列中的三部小说相互关联,形成了一部三部曲,深入探讨了地球与被称为“三体人”的外星文明之间的复杂互动。第一部小说:《地球往事》在第一部小说中,叙事重点讲述了中国军方发起的一个名为“红岸”的绝密项目的发展。
主角叶文洁是一位科学家,她发现三体人已经开始监听宇宙。她的行为,尤其是她决定回应三体人,彻底改变了人类历史的进程。她利用太阳作为放大器,建立了一个强大的信号发送给三体人。这一行动标志着人类面临重大生存威胁的新时代的开始。
第二部小说:《黑暗森林》第二部小说题为《黑暗森林》,深入探讨了“黑暗森林理论”的概念。根据这一理论,宇宙是一个广阔的战场,文明必须保持沉默以避免被发现和随后的毁灭。
三体人和人类进行了一场复杂的战略游戏,三体人部署了被称为“水滴”的先进武器。这些水滴能够通过破坏行星的生态系统来摧毁整个行星。与此同时,人类制定了自己的策略,包括“面壁计划”,该计划涉及四个人,他们在不向外界透露意图的情况下制定应对三体威胁的计划。
故事讲述了其中一位面壁者罗辑在努力应对其使命的道德含义。第三部小说:《死神永生》在《死神永生》中,罗辑成为黑暗森林理论的终极守护者。他掌握着人类和三体文明生存的关键。然而,他作为执剑人的地位给他带来了巨大的个人斗争和心理动荡。
随着罗辑作为执剑人的时代即将结束,他必须对人类的未来做出关键决定。与此同时,三体人继续努力殖民和同化其他世界。小说探讨了这一决定的后果以及对宇宙的更广泛影响。它还引入了一个新元素:人类创造微黑洞(黑域),这可能会将他们与宇宙的其他部分隔离开来。
然而,当其中六个微黑洞开始向地球移动并加速时,这一策略的有效性受到质疑。
三部曲整体探讨了生存、技术进步以及人类在面对外星威胁时面临的道德困境等主题。每部小说都以前一部小说为基础,更多地揭示了两个文明及其所居住的宇宙之间错综复杂的关系。
如何使用API最新的支持1M token的Qwen2.5-Turbo与标准Qwen API的使用方式相同,并且与OpenAI API兼容。下面是一个简单的Python调用示例(注意:您需要将环境变量YOUR_API_KEY设置为您的API密钥。
更多详情请访问阿里云模型工作室快速入门(中文)):import osfrom openai import OpenAI# 输入一个长文本文件with open("example.txt","r",encoding="utf-8") as f:
text = f.read()user_input = text + "\n\nSummarize the above text."client = OpenAI( api_key=os.getenv("YOUR_API_KEY"),
base_url="https://dashscope.aliyuncs.com/compatible-mode/v1",)completion = client.chat.completions.create( model="qwen-turbo-latest",
messages=[ {'role':
'system','content':'You are a helpful assistant.'},{'role':'user','content':user_input},],)print(completion.choices[0].message)模型性能在本节中,
我们通过多种基准测试和推理速度的改进来评估Qwen2.5-Turbo的性能。Passkey检索我们首先对1M token的Passkey检索任务进行了实验。
结果显示,Qwen2.5-Turbo可以完美捕获100万个无关文本token中的所有隐藏数字,展示了该模型在超长上下文中捕获详细信息的能力。
更复杂的长文本任务我们选择了几个长文本理解的数据集来测试模型,包括:- RULER:一个基于大海捞针的扩展基准,任务包括在不相关的上下文中找到多个“针”、回答多个问题,或者找到上下文中最频繁或最不频繁的单词。
最大上下文长度为128K。- LV-Eval:一个需要同时理解大量证据片段的基准测试。我们调整了LV-Eval原始版本中的评估指标,以避免过于严格的匹配规则导致的假阴性。最大上下文长度为256K。
- LongBenchChat:一个评估长上下文任务中人类偏好一致性的数据集。最大上下文长度为100K。
结果显示,Qwen2.5-Turbo在各种长上下文任务中具有优势:- 在RULER基准测试中,Qwen2.5-Turbo得分为93.1,超越GPT-4o-mini甚至GPT-4,证明了其处理长文本任务的出色能力。
- 在LV-Eval和LongBench-Chat等更多长上下文理解任务中,Qwen2.5-Turbo在大多数维度上都超越了GPT-4o-mini,可以处理包含超过128K token上下文的任务。
短文本任务除了在长上下文任务中的性能改进之外,我们还关注模型在短上下文任务中的性能。现有的上下文长度扩展方法在处理短文本时往往会导致显著的性能下降。因此,我们在构建Qwen2.5-Turbo时特别关注了这个问题,确保上下文长度的扩展几乎不影响短文本理解能力。
短文本基准测试结果表明,Qwen2.5-Turbo在大多数任务中显著超过了之前的上下文长度为1M token的开源模型;
与GPT-4o-mini和Qwen2.5-14B-Instruct模型相比,Qwen2.5-Turbo在短文本任务中实现了类似的性能,同时支持8倍的上下文长度。推理速度我们测试了不同输入长度下的TTFT(首次token生成时间)。