微软:两个 AI 相互纠错,数学再涨 5 分

xxn 阅读:78533 2024-12-02 14:01:57 评论:0

提高 LLM 数学能力的全新方法登场 ——

摒弃单一模型,转而采用双模型合作,相互检查,纠正错误。

这便是来自加州大学和微软研究院的最新研究成果:Flow-DPO。利用在线学习流(Flow)和直接偏好优化(DPO)技术,使 LLM 生成更为详尽和准确的推理路径。

同时,这种在线多智能体(Agent)学习形式还能从数据中挖掘深层信息,有效解决人类标注数据不准确的难题。

让我们看一个例子感受一下。

比如对下面这道题目:

方程 x + 2y + 3 = 0 的图形与方程 ax + 2y + 3 = 0 的图形互相垂直。问:在 ax + 2y + 3 = 0 中,a 的值是多少?

标准答案是这样的:

方程 x + 2y + 3 = 0 的斜率为 -1/2,由于图形垂直,故 ax + 2y + 3 = 0 的斜率必为 x + 2y + 3 = 0 斜率的负倒数。因此,ax + 2y + 3 = 0 的斜率为 2,转化为 2y = -ax - 3,再两侧除以 2,推导得 y = -a/2x-3/2。将其与斜截式 y = mx + b 进行比较,斜率 m 为 -a/2。已知斜率为2,故 -a/2=2。乘以 -2 得到a=-4,答案是:-4。

Flow-DPO 的答案是这样的:

解决此问题,需了解线性方程中垂线的概念。两条直线互为垂直时,斜率为负倒数。重新表述给定方程 x + 2y + 3 = O 为斜率-截距形式,即y = -1/2x - 3/2。即可知直线斜率为-1/2。现在,找出方程 ax + 2y + 3 = 0 所示直线的斜率。将方程转化为斜率-截距形式,即y = -a/2x - 3/2。即可得知该直线的斜率为-a/2。由于两直线垂直,因此它们的斜率互为负倒数。也就是说 -1/2 * (-a/2) = 1,简化为 a = -4。故,a 值为 -4。

GTP-4o 为裁判,分析两个模型的回答后发现,答案 B(FLow-DPO)更为优秀,原因在于:

1.概念解释

答案 A 提到:“我们可利用斜率间的负倒数关系求解 a”。答案 B 详细解释了垂线的概念,特别强调了垂线的斜率为负倒数。这样的解答更富教育意义,有助于读者理解数学推理背后的逻辑。

2.解题思路清晰

答案 A 推演出了正确的方程并解出了方程,但引入过多不必要的步骤。

例如,将方程改写为 2y = -ax - 3 并除以 2 的中间步骤比所需步骤复杂。

答案 B 即刻使用两方程的斜截式简化了方法。它明确阐释了如何求出斜率,并直接对比了两等式的斜率,过程更为直接易懂。

结论

答案 B 的解释较为清晰和深入,兼注重概念和公式,避免了不必要的复杂性,这种逐步方法更易理解和掌握。

从实际数学问题解决情况看,Flow-DPO 生成的推理过程不仅更为详尽,还消除了不必要的复杂性,提高了可读性和理解性。

如何实现这一点呢?

两大模型协同合作

针对 LLM 在解决数学问题时反馈信息有限标注数据质量较差等问题,研究团队提出了创新方法。

通过在线学习流(Flow)和直接偏好优化(DPO)学习,生成高质量的推理路径。

具体分为两个步骤:

1.增量输出生成 Flow(Incremental Output Production Flow)

Flow-DPO 采用了增量输出生成 Flow,有两独立 LLM(Answer LLM 和 Stop LLM)协作,通过迭代通信构建解决方案。

Answer LLM 逐渐生成有限答案块,Stop LLM 则检查部分答案是否达到最终状态,两者通过迭代学习不断改进。

Answer LLM 和 Stop LLM 用同一基础模型,但借助不同 LoRA 适配器微调,专为各自任务而设计。

训练中,Flow-DPO 可实现较精细控制小块大小,灵活适应不同概念和方法,大块大小则类似单次模型生成。

2.在线 Flow 学习与回滚(Online Flow Learning with Rollouts)

Flow-DPO 通过在线 DPO 学习和回滚增强 Flow。

每输入问题,Answer LLM 生成答案片段,直至获得完整回答。

模型在每个输出节点进行随机展开,如生成初始答案片段后,Stop LLM 判断“否”,Flow 继续生成新答案片段,基于部分答案继续构建。

两个答案不同,作为答案语言模型的 DPO 对,引导选出正确答案片段为首选响应。

显著提升 LLM 数学推理能力显著提升

为验证 Flow-DPO 性能,团队设计了仔细的验证实验,详细设置如下

  • 数据集:MetaMath 数据集,基于 GSM8K 和 MATH 数据集,经过数据增强技术提升。

  • 模型选择:两规模不同模型:Llama-3-8B-Instruct 和 Phi-3-medium-128k-instruct (14B)

  • Flow 学习阶段:Flow 学习阶段,团队采用不同 LoRA 适配器对 Answer LLM 和 Stop LLM 微调,让在 DPO 训练中更专业。

  • 编译阶段:收集 Flow 生成的正确推理路径和基线模型生成的正确推理路径,独立评估。

结果显示,Flow-DPO 的应用后,Llama3 和 Phi3 在数学推理方面能力大幅提升!

具体结果分析如下:

1.渐进验证准确率(Progressive Validation Accuracy)

渐进验证准确率准确定义,表示模型对输入训练数据的累积准确度,在线 DPO 训练显著提升 Flow 泛化能力。

实验结果表明,在线 DPO 训练使 Flow 的泛化能力显著增强。

对于 Llama-3-8B-Instruc 模型,在仅 2000 个训练实例内,在线 DPO 学习已提升了 20% Flow 的性能。对于 Phi-3-medium-128k-instruct 模型,在线 DPO 学习使其准确率提高 4 个百分点,达到了83%.

2.推理路径质量

Flow 生成的推理路径质量优于基线和模型生成的正确推理路径。

对于 Llama-3-8B-Instruct 模型,Flow 生成的推理路径在 GSM8K 和 MATH 数据集上微调准确率分别提高了 6% 和 7.8%。

对于 Phi-3-medium-128k-instruct 模型,Flow 生成的推理路径在两数据集上的微调准确率分别提高了 1.9% 和 2.1%.

除上述垂直线问题外,研究团队还公布了更多真实解题答案和比较,如有兴趣可查看论文的更多相关信息。

令人惊讶的是,曾让 LLM 头痛的数学问题如今得到迅速提升!

具备卓越逻辑分析能力,我们期待 LLM 将来解决更多复杂问题!

参考链接:

  • [1]https://arxiv.org/abs/2410.22304

广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考。

声明

1.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源;2.本站的原创文章,请转载时务必注明文章作者和来源,不尊重原创的行为我们将追究责任;3.作者投稿可能会经我们编辑修改或补充。

搜索
排行榜
关注我们

扫一扫关注我们,了解最新精彩内容