AI 见闻
精选· 重要性 4/5

GSPO:面向语言模型的可扩展强化学习新算法

Qwen Team Blog··约 5 分钟阅读
中文导读

Qwen团队提出组序列策略优化(GSPO)算法,通过序列级优化解决现有RL算法在长时间训练中的不稳定问题,显著提升训练效率与稳定性,并成功应用于Qwen3模型的大规模RL训练。

介绍强化学习(RL)已成为扩展语言模型并增强其深度推理和解决问题能力的关键范式。要扩展RL,最重要的先决条件是保持稳定和稳健的训练动态。

然而,我们观察到现有的RL算法(例如GRPO)在长时间训练期间表现出严重的不稳定性问题,并导致不可逆转的模型崩溃,从而阻碍了随着计算量增加而进一步的性能改进。为了实现成功的RL扩展,我们提出了组序列策略优化(GSPO)算法。

与之前的RL算法不同,GSPO基于序列似然定义重要性比,并执行序列级裁剪、奖励和优化。与GRPO相比,GSPO在以下方面表现出显著优势:- 高效且高效:GSPO具有明显更高的训练效率,并可以通过增加训练计算来实现持续的性能改进;

- 显著稳定:GSPO维护稳定的训练流程,并从本质上解决了大型专家混合(MoE)模型RL训练中的稳定性挑战;- 基础设施友好:由于序列级优化,GSPO从根本上更能容忍精度差异,为简化RL基础设施提供了有吸引力的潜力。

这些优点促成了最新Qwen3模型(Instruct、Coder、Thinking)的卓越性能。

序列级优化目标设 $x$ 为查询,$\pi_{\theta_\mathrm{old}}$ 为生成响应的旧策略,$\{y_i\}_{i=1}^G$ 为采样的响应组,$\widehat{A}_{i}$ 为每个响应的组相对优势,$\pi_\theta$ 为待优化的当前策略。

GSPO采用以下优化目标:$$ \mathcal{J}_\text{GSPO} (\theta) =\,\mathbb{E}_{ x \sim \mathcal{D},\,

\{y_i\}_{i=1}^G \sim \pi_{\theta_\mathrm{old}}( \cdot | x) } \left[ \frac{1}{G} \sum_{i=1}^{G} \min \left( s_{i}(\theta) \widehat{A}_{i}

,\,\mathrm{clip} \left( s_{i}(\theta),1 - {\varepsilon},1 + {\varepsilon} \right) \widehat{A}_{i} \right) \right],

$$其中$$ s_{i}(\theta) = \left( \frac{ \pi_{\theta} (y_i | x) }{ \pi_{\theta_\text{old}} (y_i | x)} \right)^{\frac{1}{|y_i|}} = \exp \left

( \frac{1}{|y_i|} \sum_{t=1}^{|y_i|} \log \frac{ \pi_{\theta} (y_{i,

t} | x,y_{i,<t}) }{ \pi_{\theta_\text{old}} (y_{i,t} | x,y_{i,<t})} \right). $$这里,$s_i(\theta)$ 是GSPO中基于序列似然定义的重要性比,

我们通过长度归一化来减少方差并统一 $s_i(\theta)$ 的数值范围。

训练效率与性能我们使用从Qwen3-30B-A3B-Base微调得到的冷启动模型进行实验,并报告其在AIME'24、LiveCodeBench和CodeForces基准上的训练奖励曲线以及性能曲线。

我们以GRPO作为基线进行比较。

请注意,GRPO需要路由重放训练策略来实现MoE RL的正常收敛(我们将在稍后讨论),而GSPO则消除了对该策略的需要。如上图所示,GSPO的训练效率明显高于GRPO,在相同的训练成本下实现了更好的性能。

特别是,我们观察到GSPO可以通过增加训练计算、定期更新查询集和扩展生成长度来提供持续的性能改进——这正是我们对算法的可扩展性期望。最终,我们成功将GSPO应用到最新Qwen3模型的大规模RL训练中,进一步释放了RL扩展的潜力!

一个有趣的观察结果是,GSPO中被裁剪的令牌比例比GRPO高两个数量级(如下图所示),而GSPO仍然实现了更高的训练效率。这进一步表明,GRPO的令牌级优化目标存在噪音且效率低下,而GSPO的序列级方法提供了更可靠、更有效的学习信号。

MoE RL和基础设施的优势我们发现,当采用GRPO算法时,MoE模型的专家激活波动性会阻止RL训练正确收敛。

为了解决这一挑战,我们之前采用了路由重放训练策略,该策略将激活的专家缓存在 $\pi_{\theta_\text{old}}$ 中,并在计算重要性比时在 $\pi_\theta$ 中“重放”这些路由模式。

如下图所示,路由重放对于MoE模型上GRPO训练的正常收敛至关重要。然而,路由重放策略会产生额外的内存和通信开销,并且可能会限制MoE模型的实际容量。GSPO的显著优势在于完全消除了对路由重放的依赖。

关键见解是,GSPO仅关注序列级似然(即 $\pi_\theta(y_i|x)$),并且对单个令牌似然(即 $\pi_\theta(y_{i,t}|x,y_{i,<t})$)不敏感。

因此,它不需要像路由重放这样需要大量基础设施的变通方法,既简化和稳定了训练过程,同时允许模型最大化其容量。此外,由于GSPO仅使用序列级而非令牌级似然进行优化,直观地说,前者对精度差异的容忍度要高得多。

因此,GSPO使得直接使用推理引擎返回的似然进行优化成为可能,从而消除了使用训练引擎重新计算的需要。这在部分展开、多轮RL和训练推理分离框架等场景中特别有益。

结论我们提出了组序列策略优化(GSPO),这是一种用于训练语言模型的新RL算法。与GRPO相比,GSPO表现出显著优越的训练稳定性、效率和性能,并且对于MoE模型的大规模RL训练表现出独特的效果,为最新Qwen3模型的卓越改进奠定了基础。

以GSPO作为我们的算法基石,我们将继续突破RL扩展的界限,并期待由此带来的智能根本性进步。引用如果您发现我们的工作有帮助,请随时引用我们。@article{gspo,title={Group Sequence Policy Optimization},

author={Chujie Zheng and Shixuan Liu and Mingze Li and Xiong-Hui Chen and Bowen Yu andChang Gao and Kai Dang and Yuqiong Liu and Rui Men

and An Yang and Jingren Zhou andJunyang Lin},journal={arXiv preprint arXiv:2507.18071},year={2025}}

原文出处
GSPO: Towards Scalable Reinforcement Learning for Language Models

本文为机器翻译辅以 AI 润色,仅供参考。原始事实以原文为准。

相关阅读