数学推理中的有效过程监督

Qwen Team Blog·超过 1 年前·约 5 分钟阅读

Gupub拥抱脸模型望远镜发现介绍近年来，大型语言模型（LLM）在数学推理方面取得了显着进展，但它们也可能会犯错误，例如计算错误或逻辑错误，从而导致错误的结论。

此外，即使获得正确的最终答案，这些强大的模型仍然可以定期组成看似合理的推理步骤，其中最终答案建立在有缺陷的计算或推导之上，这破坏了LLM推理过程的可靠性和可信性。因此，推理过程中错误的自动识别对于可扩展的监督变得越来越重要。

流程奖励模型（PRM）是LLM数学推理中流程监督的一种有前途的方法，旨在识别和减轻推理过程中的中间错误。在评估方面，之前的研究主要依赖于响应水平N中最佳（BoN）评估，该评估根据PRM从N$候选人中选择得分最高的响应。

今天，我们发布了一个新的最先进的PRM，它优于现有的开源替代方案，用于未来构建流程监督模型的研究。我们还发布了步骤级基准Process Bench，用于衡量模型识别数学推理中错误步骤的能力。

开放采购流程长凳Process Bench旨在衡量模型识别数学推理中错误步骤的能力。

它由3，400个测试用例组成，主要集中在竞赛和奥运会级别的数学问题上。每个测试用例都包含一个逐步解决方案，其中错误位置由人类专家注释。模型需要识别包含错误的最早步骤，或得出所有步骤都正确的结论。

Process Bench可用于评估两种类型的模型：PRM和批评者模型，对于后者，我们提示通用语言模型逐步批评每个解决方案。发布流程奖励模型我们在Qwen 2上发布了两个经过微调的PRM。5-数学-7 B-Direct和Qwen 2。

5-Math-72 B-Direct，即Qwen 2。5-Math-PRM-7 B和Qwen 2。分别为5-Math-PRM-72 B。我们训练有素的PRM在BoN评估中表现出令人印象深刻的性能，在Process Bench中表现出更强的错误识别性能。

N中最佳评估跟随Qwen 2。5-数学，我们抽样了八个回复（i. e.，$N=8$）来自Qwen 2。

5-Math-7 B-指导多个数学基准，包括GSM 8 K、MATH、Minerva Math、GaoKao 2023 En、OlympiadBench、College Math和MMLU STEM。

每个候选回答都是使用回答中每个步骤的所有单独分数的积来评分的。我们报告八个样本中多数投票的结果（maj@8）作为基线，并以pass@8（i. e.，八个采样中的任何一个都会得到正确最终答案的测试样本的比例）作为上限。

如下表所示，Qwen 2.

与同等模型规模的其他PRM相比，5-Math-PRM-7 B表现出更优越的性能。值得注意的是，它在所有7项任务中的表现都优于maj@8，平均改进为1。4%。此外，Qwen 2. 5-Math-PRM-72 B的整体性能略好于Qwen 2。

5-Math-RM-72 B，在Minerva Math和MMLU STEM任务中观察到特别显着的改进。流程台我们还评估Process Bench上的PRM，以衡量识别错误步骤的能力。

与法学硕士担任评委相比，Qwen 2. 5-Math-PRM-7 B的型号尺寸较小，表现出优于所有开源型号的性能。对于专有语言模型，Qwen 2. 5-Math-PRM-7 B的性能优于GPT-4 o-0806，但与o 1-mini相比仍存在性能差距。

此外，与现有的PRM相比，Qwen 2. 5-Math-PRM-7 B和Qwen 2。5-Math-PRM-72 B比其同行表现出巨大的优势。

值得注意的一个有趣观察是，结果奖励模型（ORM）Qwen 2. 5-Math-RM-72 B在识别步骤错误方面表现出相当大的能力，甚至超过了一些开源PRM，这验证了其作为超越纯粹基于规则的机制的补充奖励的潜力。

结论Process Bench展示了现有PRM的当前挑战，并填补了PRM分步评估的空白。

Besides open-sourcing PRMs,

we also identify critical limitations in current data construction approaches for PRMs and reveal the potential bias in using response-l

evel BoN evaluation alone for PRMs through extensive empirical studies in our paper. We hope that ProcessBench and the best practices in

training our own PRMs can foster future research and development for reasoning process supervision. For more details,

please check out our papers in the following!

CitationIf you find our work helpful,feel free to give us a citation. @article{processbench,title={{ProcessBench:

} Identifying Process Errors in Mathematical Reasoning},

author={Chujie Zheng and Zhenru Zhang and Beichen Zhang and Runji Lin and Keming Lu andBowen Yu and Dayiheng Liu and Jingren Zhou and Ju

nyang Lin},journal={arXiv preprint arXiv:2412. 06559},year={2024}}@article{prmlessons,

title={The Lessons of Developing Process Reward Models in Mathematical Reasoning},

author={Zhenru Zhang and Chujie Zheng and Yangzhen Wu and Beichen Zhang and Runji Lin and Bowen Yu and Dayiheng Liu and Jingren Zhou and

Junyang Lin},journal={arXiv preprint arXiv:2501. 07301},year={2025}}

原文出处

本文为机器翻译辅以 AI 润色，仅供参考。原始事实以原文为准。

相关阅读