不蒸馏 R1 也能超越 DeepSeek,上海 AI Lab 用 RL 突破数学推理极限
强化学习实现超越 DeepSeek 的新突破!
上海 AI Lab 提出了一种全新的基于结果反馈的强化学习方法——
通过对 Qwen2.5-32B-Base 模型的微调结合结果反馈强化学习,成功在不使用超大模型(如 DeepSeek-R1)的情况下,超越了 DeepSeek-R1-Distill-Qwen32B 和 OpenAI-O1 系列的出色数学推理能力。
研究团队识别到当前大型模型在数学推理中的“三重困境”:
稀疏奖励问题:二元反馈的局限性使得复杂推理的优化难度加大
局部正确误区:长推理链中部分正确的步骤可能对模型学习造成误导
规模依赖困境:传统的蒸馏方式导致研究者陷入“模型规模竞赛”
因此,研究团队对现有基于结果反馈的强化学习方法进行了深入的理论研究和算法重新设计,得出以下三大重要结论:
对于正样本:在二元反馈的环境下,最佳轨迹采样(BoN)能实现最优策略的学习
对于负样本:需要通过奖励重塑保持策略优化一致性
对于长序列:不同序列部分对结果的影响不同,需要细化的奖励分配函数,通过结果反馈进行优化
简而言之,通过学习正确示例、关注错误样本及突出关键步骤的方式,在不依赖超大型模型(如 DeepSeek-R1)进行蒸馏的情况下,单靠强化学习即可实现显著成果。
此外,研究团队还对不同起始模型进行了分析,发现起始模型与训练数据分布对最终效果有重要影响。因此,研究团队将RL训练的数据集、起始模型及最终模型一并开源,以推动社区的公平研究和比较。项目链接见文末。
创新性设计结果奖励强化学习
针对数学推理任务中的稀疏奖励与局部正确问题,团队提出了新的优化框架OREAL。
通过理论创新实现针对性的算法改进,首先证明“怎样更好做”的基础上推导“为什么这样做更好”。
正负样本奖励重塑,破解稀疏奖励困境
在数学推理工作的采样过程中,团队通过理论分析得出:在二元反馈机制下,采样任何数量的包含正确答案的 BoN(Best-of-N),其正确轨迹的分布具有一致性。这一发现意味着通过行为克隆(behavior cloning)获得的正确轨迹已构成了正样本训练的最优设置。
在对正样本进行模仿学习的基础上,团队发现直接惩罚负样本可能造成梯度偏差,因此,负样本的训练应以维护优化梯度形式与学习 BoN 分布一致为目标。通过深入分析正负样本的训练梯度,提出了基于平均准确率 p 的奖励重塑因子,为 GRPO 等算法的改进提供了理论支持。这种设置帮助模型有效吸收成功经验并精准识别关键错误边界,显著提升了训练绩效。
结果奖励「因果溯源」,跳出局部正确误区
针对复杂的长推理链问题,OREAL 创新性设计了 token 重要性评估器。构建序列累积形式的奖励函数,能够逆向分解每个推理步骤的结果奖励(见下方 token-level RM 热力图)。此方法精确定位核心错误步骤,实现更细致的梯度更新,明显增强模型在长序列任务中的表现。
OREAL 框架
结合多种认知,团队提出的最优强化学习策略总结为:在正确样本上进行模仿学习,在错误样本上进行偏好学习,并重点关注关键步骤。
通过全面分析和实践,从而逐步优化强化学习性能。
强化学习超越蒸馏,打破规模依赖困局
在 7B 和 32B 两种规模的模型上,团队仅使用 4000 条高质量训练样本进行了训练与测试,
在 7B 模型上,OREAL-7B 在 MATH-500 上获得了 91.0 的 pass@1 准确率。这是首次利用强化学习实现如此高的精度,打破了基于蒸馏方法的记录。这一成就不仅为强化学习方法树立了新的里程碑,还超越了更大参数模型,如 QWQ-32B-Preview 和 OpenAI-O1-Mini。
此外,将 OREAL 应用于之前最佳的 7B 模型(DeepSeek-r1-Distill-Qwen-7B),新模型 OREAL-DSR1-Distill-Qwen-7B 也在 MATH-500 上取得了 94.0 的 pass@1 精度,刷新了 7B 模型的记录。经过 DeepSeek 的蒸馏与上海 AI Lab 的强化学习训练,实现了中国原著的全新高度。
在 32B 模型中,OREAL-32B 在 MATH-500 上同样取得了 95.0 的分数,超越了同级别的 DeepSeek-r1-Distill-Qwen-32B,为 32B 模型设立了新标杆。
补充信息
最后,研究团队比较了不同基础模型的表现,发现不同起点的策略模型在 RL 后的性能上限也有所不同,实力更强的起始模型在 RL 后表现更佳。
尽管大多数基于模型的 benchmark 在 RL 后有所提升,但有时也可能会出现持平(如 OREAL-32B 在 AIME2025-I)或性能下降(相较 DSR1-Distill-Qwen-7B 在 AIME2024 的表现)。
研究指出,这些现象可能与训练语料的质量、复杂性和数量不足有关,为未来的研究提供了反思的空间。
因此,除了强大的 RL 算法外,团队强调在数学推理任务中成功的两个关键因素:
强大的起始模型为 RL 开启潜力提供必要基础。
在 RL 阶段使用的数据必须确保质量、难度、数量和多样性都足够优秀。高质量数据集让模型能够在各种挑战和学习机会中最大限度地展现其潜力。
模型数据全面开源,助力强化学习的研究
研究团队还注意到,尽管 DeepSeek-R1 的出现激发了社区对大型语言模型强化学习的热情,但不同的训练起点模型、数据集、算法和超参数都不尽相同,导致算法与模型性能缺乏清晰对比。
因此,研究团队全面开源 RL 训练过程中用到的训练数据、起始模型和 RL 后模型,同时也将训练代码开源至 XTuner。
项目地址:
https://github.com/InternLM/OREAL
论文链接:
https://arxiv.org/abs/2502.06781
RL 训练数据链接:
https://huggingface.co/datasets/internlm/OREAL-RL-Prompts
系列模型地址:
https://huggingface.co/collections/internlm/oreal-67aaccf5a8192c1ba3cff018
广告声明:文中的外部链接(包括超链接、二维码、口令等形式),用于传递更多信息,节省用户时间,结果仅供参考。
1.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源;2.本站的原创文章,请转载时务必注明文章作者和来源,不尊重原创的行为我们将追究责任;3.作者投稿可能会经我们编辑修改或补充。