精选· 重要性 4/5

GSPO：面向语言模型的可扩展强化学习新算法

Qwen Team Blog·12 个月前·约 5 分钟阅读

中文导读

Qwen团队提出组序列策略优化（GSPO）算法，通过序列级优化解决现有RL算法在长时间训练中的不稳定问题，显著提升训练效率与稳定性，并成功应用于Qwen3模型的大规模RL训练。

介绍强化学习（RL）已成为扩展语言模型并增强其深度推理和解决问题能力的关键范式。要扩展RL，最重要的先决条件是保持稳定和稳健的训练动态。

然而，我们观察到现有的RL算法（例如GRPO）在长时间训练期间表现出严重的不稳定性问题，并导致不可逆转的模型崩溃，从而阻碍了随着计算量增加而进一步的性能改进。为了实现成功的RL扩展，我们提出了组序列策略优化（GSPO）算法。

与之前的RL算法不同，GSPO基于序列似然定义重要性比，并执行序列级裁剪、奖励和优化。与GRPO相比，GSPO在以下方面表现出显著优势：- 高效且高效：GSPO具有明显更高的训练效率，并可以通过增加训练计算来实现持续的性能改进；

- 显著稳定：GSPO维护稳定的训练流程，并从本质上解决了大型专家混合（MoE）模型RL训练中的稳定性挑战；- 基础设施友好：由于序列级优化，GSPO从根本上更能容忍精度差异，为简化RL基础设施提供了有吸引力的潜力。

这些优点促成了最新Qwen3模型（Instruct、Coder、Thinking）的卓越性能。

序列级优化目标设 $x$ 为查询，$\pi_{\theta_\mathrm{old}}$ 为生成响应的旧策略，$\{y_i\}_{i=1}^G$ 为采样的响应组，$\widehat{A}_{i}$ 为每个响应的组相对优势，$\pi_\theta$ 为待优化的当前策略。

GSPO采用以下优化目标：$$ \mathcal{J}_\text{GSPO} (\theta) =\,\mathbb{E}_{ x \sim \mathcal{D},\,

\{y_i\}_{i=1}^G \sim \pi_{\theta_\mathrm{old}}( \cdot | x) } \left[ \frac{1}{G} \sum_{i=1}^{G} \min \left( s_{i}(\theta) \widehat{A}_{i}

,\,\mathrm{clip} \left( s_{i}(\theta),1 - {\varepsilon},1 + {\varepsilon} \right) \widehat{A}_{i} \right) \right],

$$其中$$ s_{i}(\theta) = \left( \frac{ \pi_{\theta} (y_i | x) }{ \pi_{\theta_\text{old}} (y_i | x)} \right)^{\frac{1}{|y_i|}} = \exp \left

( \frac{1}{|y_i|} \sum_{t=1}^{|y_i|} \log \frac{ \pi_{\theta} (y_{i,

t} | x,y_{i,<t}) }{ \pi_{\theta_\text{old}} (y_{i,t} | x,y_{i,<t})} \right). $$这里，$s_i(\theta)$ 是GSPO中基于序列似然定义的重要性比，

我们通过长度归一化来减少方差并统一 $s_i(\theta)$ 的数值范围。

训练效率与性能我们使用从Qwen3-30B-A3B-Base微调得到的冷启动模型进行实验，并报告其在AIME'24、LiveCodeBench和CodeForces基准上的训练奖励曲线以及性能曲线。

我们以GRPO作为基线进行比较。

请注意，GRPO需要路由重放训练策略来实现MoE RL的正常收敛（我们将在稍后讨论），而GSPO则消除了对该策略的需要。如上图所示，GSPO的训练效率明显高于GRPO，在相同的训练成本下实现了更好的性能。

特别是，我们观察到GSPO可以通过增加训练计算、定期更新查询集和扩展生成长度来提供持续的性能改进——这正是我们对算法的可扩展性期望。最终，我们成功将GSPO应用到最新Qwen3模型的大规模RL训练中，进一步释放了RL扩展的潜力！

一个有趣的观察结果是，GSPO中被裁剪的令牌比例比GRPO高两个数量级（如下图所示），而GSPO仍然实现了更高的训练效率。这进一步表明，GRPO的令牌级优化目标存在噪音且效率低下，而GSPO的序列级方法提供了更可靠、更有效的学习信号。

MoE RL和基础设施的优势我们发现，当采用GRPO算法时，MoE模型的专家激活波动性会阻止RL训练正确收敛。

为了解决这一挑战，我们之前采用了路由重放训练策略，该策略将激活的专家缓存在 $\pi_{\theta_\text{old}}$ 中，并在计算重要性比时在 $\pi_\theta$ 中“重放”这些路由模式。

如下图所示，路由重放对于MoE模型上GRPO训练的正常收敛至关重要。然而，路由重放策略会产生额外的内存和通信开销，并且可能会限制MoE模型的实际容量。GSPO的显著优势在于完全消除了对路由重放的依赖。

关键见解是，GSPO仅关注序列级似然（即 $\pi_\theta(y_i|x)$），并且对单个令牌似然（即 $\pi_\theta(y_{i,t}|x,y_{i,<t})$）不敏感。

因此，它不需要像路由重放这样需要大量基础设施的变通方法，既简化和稳定了训练过程，同时允许模型最大化其容量。此外，由于GSPO仅使用序列级而非令牌级似然进行优化，直观地说，前者对精度差异的容忍度要高得多。

因此，GSPO使得直接使用推理引擎返回的似然进行优化成为可能，从而消除了使用训练引擎重新计算的需要。这在部分展开、多轮RL和训练推理分离框架等场景中特别有益。

结论我们提出了组序列策略优化（GSPO），这是一种用于训练语言模型的新RL算法。与GRPO相比，GSPO表现出显著优越的训练稳定性、效率和性能，并且对于MoE模型的大规模RL训练表现出独特的效果，为最新Qwen3模型的卓越改进奠定了基础。

以GSPO作为我们的算法基石，我们将继续突破RL扩展的界限，并期待由此带来的智能根本性进步。引用如果您发现我们的工作有帮助，请随时引用我们。@article{gspo,title={Group Sequence Policy Optimization},

author={Chujie Zheng and Shixuan Liu and Mingze Li and Xiong-Hui Chen and Bowen Yu andChang Gao and Kai Dang and Yuqiong Liu and Rui Men

and An Yang and Jingren Zhou andJunyang Lin},journal={arXiv preprint arXiv:2507.18071},year={2025}}

原文出处

本文为机器翻译辅以 AI 润色，仅供参考。原始事实以原文为准。

相关阅读