北交开源 o1 代码版:强化学习 + 蒙特卡洛树搜索,放出源代码、精选数据集以及衍生模型
北京交通大学研究团队隆重推出了全新版本 o1,所有源码、经典数据集以及分支模型均已开源!这一项目名为 O1-CODER,专注于编码任务。
该团队认为编码是一项通常需要 System-2 思维方式的任务,需要深思熟虑、逻辑清晰并一步步解决问题。
他们的方法是将增强学习(RL)和蒙特卡洛树搜索(MCTS)结合,使模型能够不断生成推理数据,从而提升其 System-2 能力。
在实验中,团队得出了如下几个关键发现:
在推理正确的情况下,基于伪代码的推理明显改善了代码生成质量
将监督微调(SFT)与直接偏好优化(DPO)相结合可以提升测试用例生成效果
自我对弈增强学习为推理和代码生成创造了持续改进的反馈机制
具体来说,团队采用了测试用例生成器,在经过 DPO 后通过率达到了89.2%,较初始微调后的80.8%有着显著提升;另外,Qwen2.5-Coder-7B 使用伪代码方法实现了74.9%的平均采样通过率,提高了25.6%。
网友称赞这样的模型切实符合实际需求。
O1-CODER,具体特点是?
六步,逐步优化 o1
用于代码生成的自我对弈强化学习面临两大挑战:
结果评估,即如何评估生成代码的质量。与围棋等任务不同,评价代码需要在测试环境中运行并验证。
定义思考和搜索行为,即确定奖励对象和粒度。
对于第一个挑战,团队提出训练测试用例生成器(TCG),依据问题和标准代码自动生成测试用例,为强化学习提供标准化的代码测试环境和结果奖励。
对于第二个挑战,他们采取”先思考后行动“的方法:首先通过详细的伪代码思考问题,然后根据伪代码生成最终可执行代码。
这种方式的优势在于适应性(同一伪代码可对应不同具体实现)和可控粒度(通过调整伪代码的细节程度控制推理 / 搜索行为的粒度)。
具体而言,研究团队提出一个包含六个步骤的框架:
训练测试用例生成器(TCG),为代码测试提供标准化的环境
利用 MCTS 生成含推理过程的代码数据
迭代微调策略模型,首先生成伪代码,再生成完整代码
根据推理过程数据初始化过程奖励模型(PRM)
在 TCG 提供的结果奖励和 PRM 提供的过程奖励的双重引导下,通过强化学习和 MCTS 更新策略模型
使用优化后的策略模型生成新的推理数据,返回第四步迭代训练
两阶段训练测试用例生成器
在实验部分,研究人员详细介绍了测试用例生成器的训练过程。
分为两个阶段:监督微调(SFT)和直接偏好优化(DPO)。
SFT 阶段的主要目标是确保生成器的输出符合先定义格式,以便准确解析和提取生成的测试用例。训练数据取自 TACO 数据集。
DPO 阶段旨在帮助模型生成符合特定偏好的测试用例,以进一步提高生成器的性能和可靠性。
研究团队采用一种包括人工构建样本对的 DPO 方法,建立了一个偏好数据集。
实验证明,SFT 阶段后,TCG 生成的测试用例在标准代码上的通过率达到80.8%,而DPO 阶段进一步提升至89.2%,大大提高了生成器生成可靠测试用例的能力。
伪代码推理,引领深度推理
基于伪代码的提示方法由研究者引入,作为引导模型进行深度推理的“思考工具”。
为此他们界定了三个关键行动:
用伪代码定义算法结构:勾勒主要函数的结构和接口,把握任务的总体框架
精炼伪代码:逐步详细说明每个功能的具体步骤、逻辑和操作
从伪代码生成代码:将伪代码的结构和逻辑准确转换为可运行代码
在 MBPP 数据集上执行的初步实验显示,尽管整体通过率(Pass@1)略有下降,但平均采样通过率(ASPR)大幅提高。
结果表明,结合伪代码显著改善了推理过程的质量,尤其是在清晰路径通向正确输出方面。这为随后的自我监督微调和增强学习提供了优秀的起步点。
自我对弈 + 强化学习
研究人员详细解释了如何使用蒙特卡洛树搜索(MCTS)构建逐步级别的过程奖励数据。
这一过程涉及为每个问题建立一个推理路径,该路径由一系列推理步骤组成,并最终产生一个可执行代码。在 MCTS 的路径搜索过程中,利用伪代码为推理路径提供引导。一旦到达终端节点,就构成一个完整的伪代码推理路径。
终端节点的奖励值根据两个关键指标计算:编译成功率(compile)和测试用例通过率(pass)。
这些指标用于评估生成代码的质量和正确性。
奖励值向路径上的所有前序节点进行反向传播,为每个步骤分配奖励值。该方法构建了推理过程数据集,为策略模型的初始化和培训奠定了基础。
过程奖励模型(PRM)的任务是为当前步骤分配奖励值,估计其对最终答案的贡献。
在数据生成过程中,树搜索方法可组织成点式(point-wise)和对式(pair-wise)两种数据格式。
基于这些验证正确的推理过程,策略模型得以初始化。
而后,过程奖励模型(PRM)开始评估每一步推理对最终答案的贡献。在测试用例生成器(TCG)提供的结果奖励和 PRM 提供的过程奖励的双重引导下,策略模型通过增强学习不断提升。
更新后的策略模型用来生成新的推理数据,补充到现有数据集中,形成自我对弈的闭环。这种数据生成-奖励建模-策略优化的迭代循环,保证了系统推理能力的持续提升。
阅读原文:https://arxiv.org/pdf/2412.00154
本内容摘自微信公众号:量子位(ID:QbitAI),作者:西风,原标题《北交开源 o1 代码版!强化学习 + 蒙特卡洛树搜索,源代码、精选数据集以及衍生模型通通开源》
声明:本文中包含的外部链接(包括但不限于超链接、二维码、口令等形式)旨在传递更多信息,节省选取时间,结果仅供参考。
1.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源;2.本站的原创文章,请转载时务必注明文章作者和来源,不尊重原创的行为我们将追究责任;3.作者投稿可能会经我们编辑修改或补充。