RVPO：通过方差正则化实现风险敏感对齐

Apple Machine Learning Research·3 个月前·约 3 分钟阅读

RVPO：通过方差正规化实现风险敏感对齐作者Ivan Chando、Tomasz Jurczyk、Bhuwan Dhingra内容类型论文发表于2026年5月RVPO：通过方差正规化实现风险敏感对齐作者Ivan Chando、Tomasz Jurczyk、

Bhuwan Dhingra当前的无批评的RL HF方法通过算术平均值汇总多目标回报，使其容易受到约束忽视：一个目标的巨大成功可以在数字上抵消其他目标的关键失败（例如G.、安全性或格式），掩盖低性能的“瓶颈”奖励对于可靠的多目标对齐至关重要。

我们提出奖励-方差政策优化（RVPO），这是一个风险敏感的框架，在优势聚合期间惩罚奖励间方差，将目标从“总和最大化”转变为“一致性最大化”。“我们通过泰勒展开表明，LogSumExp（SoftMin）操作符有效地充当平滑方差惩罚。

我们通过基于主题的医学和科学推理评估RVPO，并使用多达17个并行LLM判断的奖励信号（Qwen 2. 5-3B/7 B/14 B）以及具有基于规则约束的工具调用（Qwen 2. 5-1. 5B/3B）。

通过防止模型忽视困难的约束来利用更简单的目标，RVPO提高了HealthBench的总分（0. 261对0。GDPO在14 B时为215，p < 0。

001)并在GPQA-Diamond上保持了有竞争力的准确性，而不会出现其他多奖励方法中观察到的后期退化，这表明方差正规化可以在不牺牲一般能力的情况下减轻模型尺度上的约束忽视。图1：多目标RL HF中的约束忽略。

（左）平均聚集（GRPO/GDPO）将具有关键约束失败的输出（Gen A）视为数学上与平衡输出（Gen B）相同，从而使优化器对关键失败视而不见。（右图）RVPO应用软最小操作符来惩罚回报间方差，大幅折扣A世代以强制瓶颈约束。

直接偏好优化诱导的隐性报酬模型的有限概括能力2024年10月9日研究领域方法与算法，研究领域语音与自然语言处理会议EMNLP来自人类反馈的强化学习（RL HF）是将语言模型与人类偏好相匹配的有效方法。

RL HF的核心是学习对人类偏好进行评分的奖励函数。学习奖励模型的两种主要方法是1）训练显式奖励模型，如在WLHF中，以及2）使用通过直接偏好优化（DPO）等方法从偏好数据中学习的隐式奖励。

之前的工作表明.只为不确定的事情付费：方差自适应汤普森抽样2024年5月3日研究领域数据科学与注释，研究领域方法与边界会议ICLR大多数强盗算法都假设奖励方差或其上限是已知的，并且它们对所有武器都是相同的。

这自然会导致次优性能和因方差高估而导致更高的遗憾。另一方面，低估的奖励方差可能会导致线性遗憾，因为提前投入次优手臂。这一动机先验研究的是方差自适应频率主义算法，该算法具有很强的.

原文出处

本文为机器翻译辅以 AI 润色，仅供参考。原始事实以原文为准。

相关阅读