精选· 重要性 5/5

QwQ-32B：强化学习驱动的32B参数模型性能媲美DeepSeek-R1

Qwen Team Blog·超过 1 年前·约 4 分钟阅读

中文导读

Qwen团队发布QwQ-32B，一个仅32B参数的模型，通过强化学习在数学、编程等任务上达到与671B参数的DeepSeek-R1相当的性能，并集成智能体能力，展示了强化学习在提升大模型智能方面的巨大潜力。

QWEN CHAT Hugging Face ModelScope DEMO DISCORD扩展强化学习（RL）有潜力超越传统的预训练和后训练方法，进一步提升模型性能。近期研究表明，RL能显著增强模型的推理能力。

例如，DeepSeek R1通过整合冷启动数据和多阶段训练，实现了深度思考与复杂推理，达到了最先进水平。我们的研究探索了强化学习的可扩展性及其对增强大语言模型智能的影响。

我们很高兴推出QwQ-32B，一个拥有320亿参数的模型，其性能可与拥有6710亿参数（激活370亿）的DeepSeek-R1相媲美。这一卓越成果凸显了RL在应用于基于广泛世界知识预训练的稳健基础模型时的有效性。

此外，我们将智能体相关能力集成到推理模型中，使其能够批判性思考，同时利用工具并根据环境反馈调整推理。这些进步不仅展示了RL的变革潜力，也为追求通用人工智能的进一步创新铺平了道路。

QwQ-32B以开放权重形式在Hugging Face和ModelScope上发布，采用Apache 2.0许可证，并可通过Qwen Chat访问。

性能QwQ-32B在一系列旨在评估其数学推理、编程能力和通用问题解决能力的基准测试上进行了评估。

以下结果展示了QwQ-32B与其他领先模型（包括DeepSeek-R1-Distilled-Qwen-32B、DeepSeek-R1-Distilled-Llama-70B、o1-mini和原始DeepSeek-R1）的性能对比。

强化学习我们从冷启动checkpoint开始，实施了基于结果奖励驱动的强化学习扩展方法。初始阶段，我们专门针对数学和编程任务扩展RL。我们没有依赖传统奖励模型，而是使用数学问题的准确性验证器确保最终答案正确，并使用代码执行服务器评估生成的代码是否通过预定义测试用例。

随着训练轮次进行，两个领域的性能持续提升。第一阶段后，我们增加了另一阶段RL以提升通用能力，使用通用奖励模型和基于规则的验证器提供的奖励进行训练。

我们发现，这一阶段仅需少量步骤的RL训练就能提升其他通用能力（如指令遵循、与人类偏好对齐以及智能体性能），同时数学和编程性能没有显著下降。

使用QwQ-32B以下是通过Hugging Face Transformers和阿里云DashScope API使用QwQ-32B的简要示例。from transformers import AutoModelForCausalLM,

AutoTokenizermodel_name = "Qwen/QwQ-32B"model = AutoModelForCausalLM.from_pretrained( model_name,

torch_dtype="auto",

device_map="auto")tokenizer = AutoTokenizer.from_pretrained(model_name)prompt = "How many r's are in the word \"strawberry\""messages =

[ {"role":"user","content":prompt}]text = tokenizer.apply_chat_template( messages,tokenize=False,

add_generation_prompt=True)model_inputs = tokenizer([text],

return_tensors="pt").to(model.device)generated_ids = model.generate( **model_inputs,

max_new_tokens=32768)generated_ids = [ output_ids[len(input_ids):

] for input_ids,output_ids in zip(model_inputs.input_ids,generated_ids)]response = tokenizer.batch_decode(generated_ids,

skip_special_tokens=True)[0]print(response)

from openai import OpenAIimport osclient = OpenAI( api_key=os.getenv("DASHSCOPE_API_KEY"),base_url="https:

//dashscope.aliyuncs.com/compatible-mode/v1")reasoning_content = ""content = ""is_answering = Falsecompletion = client.chat.completions.

create( model="qwq-32b",messages=[ {"role":"user","content":"Which is larger,9.9 or 9.11?

"} ],stream=True,)print("\n" + "=" * 20 + "reasoning content" + "=" * 20 + "\n")for chunk in completion:if not chunk.choices:

print("\nUsage:

") print(chunk.usage) else:delta = chunk.choices[0].delta if hasattr(delta,'reasoning_content') and delta.reasoning_content is not None:

print(delta.reasoning_content,end='',flush=True) reasoning_content += delta.reasoning_content else:if delta.content !

= "" and is_answering is False:print("\n" + "=" * 20 + "content" + "=" * 20 + "\n") is_answering = True print(delta.content,end='',

flush=True) content += delta.content

未来工作这是Qwen在扩展强化学习以增强推理能力方面的初步尝试。通过这一过程，我们不仅见证了扩展RL的巨大潜力，也认识到预训练语言模型中尚未发掘的可能性。

在开发下一代Qwen的过程中，我们相信将更强的基础模型与基于扩展算力的RL相结合，将使我们更接近实现通用人工智能（AGI）。此外，我们正在积极探索将智能体与RL集成，以实现长程推理，旨在通过推理时扩展释放更大的智能。

原文出处

本文为机器翻译辅以 AI 润色，仅供参考。原始事实以原文为准。

相关阅读