QwQ-32 B:拥抱强化学习的力量
QWEN CHAT拥抱脸模型范围DEMO DISCORD扩展强化学习(RL)有潜力增强模型性能,超越传统的训练前和训练后方法。最近的研究表明,RL可以显着提高模型的推理能力。
例如,DeepSeek R1通过集成冷启动数据和多阶段训练,实现了最先进的性能,实现了深度思维和复杂推理。我们的研究探讨了强化学习(RL)的可扩展性及其对增强大型语言模型智能的影响。
我们很高兴推出QwQ-32 B,这是一个拥有320亿个参数的模型,其性能与拥有6710亿个参数(激活了370亿个参数)的DeepSeek-R1相当。这一显着的结果凸显了RL应用于预先训练过广泛世界知识的稳健基础模型时的有效性。
此外,我们还将与代理相关的能力集成到推理模型中,使其能够在利用工具并根据环境反馈调整推理的同时进行批判性思考。这些进步不仅展示了RL的变革潜力,也为追求人工通用智能的进一步创新铺平了道路。
QwQ-32 B是Apache 2下的Hugging Face和MechanScope中的开量级游戏。0许可证,可通过Qwen Chat访问。
性能QwQ-32 B经过一系列基准评估,旨在评估其数学推理、编码熟练程度和一般问题解决能力。
以下结果凸显了QwQ-32 B与其他领先型号(包括DeepSeek-R1-Distilled-Qwen-32 B、DeepSeek-R1-Distilled-Lama-70 B、o 1-mini和原版DeepSeek-R1)相比的表现。
强化学习我们从冷启动检查点开始,并实施了由基于结果的奖励驱动的强化学习(RL)扩展方法。在初始阶段,我们专门针对数学和编码任务扩展RL。
我们没有依赖传统的奖励模型,而是使用数学问题的准确性验证器来确保最终解决方案的正确性,并使用代码执行服务器来评估生成的代码是否成功通过预定义的测试用例。随着培训事件的进行,这两个领域的表现都显示出持续的改进。
在第一阶段之后,我们添加了另一个阶段的RL来实现一般功能。它使用来自通用奖励模型和一些基于规则的验证器的奖励进行训练。我们发现,这个阶段的RL训练只需少量步骤就可以提高其他通用能力的性能,例如指令遵循、与人类偏好的一致性以及代理性能,而数学和编码的性能不会显着下降。
使用QwQ-32 B以下是演示如何通过Hugging Face Transformers和阿里云DashScope API使用QwQ-32 B的简短示例。
从变压器导入AutoModel ForCairm、AutoTokenizer型号_名称=“Qwen/QwQ-32 B”型号= AutoModel ForCairm LM。
来自_预训练(型号_名称,torch_dype =“Auto”,设备_地图=“自动”)代币化器= AutoTokenizer。
来自_pretrained(型号_名称)提示=“单词“草莓”中有多少个r”消息= [{“角色”:“用户”,“内容”:提示}]text = tokenizer。
apply_chat_templates(消息,标记化=假,add_generation_proprim =True)模型_输入= tokenizer([text],Return_tensors=“pt”)。
到(模型。设备)generated_ids =模型。生成(** 模型_输入,max_new_tokens=32768)generated_ids = [select_ids[len(entry_ids):]对于输入_ids,输出_ids以压缩形式(型号_输入。
输入_id,生成_id)]响应=代币化器。
batch_decode(generated_ids,skip_special_tokens=True)[0]打印(回复)从openai进口OpenAI导入操作系统#初始化OpenAI客户端客户端= OpenAI(#如果未配置环境变量,请替换为您的API Key:
api_key=“sk-xxx”#如何获取API Key:https://Help。阿里云。
com/zh/model-studio/developer-reference/get-api-keyapi_key= os. getenv(“DASHSCOPE_API_KEY”),base_url=“https://dashscope。
阿里云。com/compatible-mode/v1”)推理_内容=“”内容=“”is_answer = False完成=客户。chat.完成。创建(型号=“qwq-32 b”,消息=[{“角色”:“用户”,“内容”:“哪个更大,9。
9或9。十一岁?
"}],stream=True,#取消对以下行的注释以返回最后一个区块中的令牌使用情况# stream_select ={#“select_usage”:True# })print(“\n”+”=“* 20 +”推理内容“+”=“* 20 +”\n”)对于完成中的块:
#如果块。选择为空,打印使用如果不是大块的话。选择:print(“\n用途:”)打印(块。用途)其他:Delta =块。选择[0]。三角洲#打印推理内容如果hasattr(delta,“reining_content ')和delta。
reasoning_content不是无:打印(Delta。推理_内容,end =',flush=True)推理_内容+=增量。推理_内容其他:如果是三角洲。内容!
=“”并且is_answer为假:print(“\n”+”=“* 20 +”内容“+”=“* 20 +”\n”)is_answer = True#打印内容打印(Delta。内容,end =',flush=True)内容+=增量。
内容今后工作这标志着Qwen扩展强化学习(RL)以增强推理能力的第一步。通过这段旅程,我们不仅目睹了扩展RL的巨大潜力,而且还认识到了预训练语言模型中尚未开发的可能性。
当我们努力开发下一代Qwen时,我们相信将更强大的基础模型与由可扩展计算资源支持的RL相结合将推动我们更接近实现人工通用智能(AGI)。此外,我们正在积极探索将代理与RL集成以实现长视野推理,旨在通过推理时间扩展来释放更大的智能。