微软：两个 AI 相互纠错，数学再涨 5 分

xxn 阅读：78623 2024-12-02 14:01:57 评论：0

提高 LLM 数学能力的全新方法登场 ——

摒弃单一模型，转而采用双模型合作，相互检查，纠正错误。

这便是来自加州大学和微软研究院的最新研究成果：Flow-DPO。利用在线学习流（Flow）和直接偏好优化（DPO）技术，使 LLM 生成更为详尽和准确的推理路径。

同时，这种在线多智能体（Agent）学习形式还能从数据中挖掘深层信息，有效解决人类标注数据不准确的难题。

让我们看一个例子感受一下。

比如对下面这道题目：

方程 x + 2y + 3 = 0 的图形与方程 ax + 2y + 3 = 0 的图形互相垂直。问：在 ax + 2y + 3 = 0 中，a 的值是多少？

标准答案是这样的：

方程 x + 2y + 3 = 0 的斜率为 -1/2，由于图形垂直，故 ax + 2y + 3 = 0 的斜率必为 x + 2y + 3 = 0 斜率的负倒数。因此，ax + 2y + 3 = 0 的斜率为 2，转化为 2y = -ax - 3，再两侧除以 2，推导得 y = -a/2x-3/2。将其与斜截式 y = mx + b 进行比较，斜率 m 为 -a/2。已知斜率为2，故 -a/2=2。乘以 -2 得到a=-4，答案是：-4。

而 Flow-DPO 的答案是这样的：

解决此问题，需了解线性方程中垂线的概念。两条直线互为垂直时，斜率为负倒数。重新表述给定方程 x + 2y + 3 = O 为斜率-截距形式，即y = -1/2x - 3/2。即可知直线斜率为-1/2。现在，找出方程 ax + 2y + 3 = 0 所示直线的斜率。将方程转化为斜率-截距形式，即y = -a/2x - 3/2。即可得知该直线的斜率为-a/2。由于两直线垂直，因此它们的斜率互为负倒数。也就是说 -1/2 * (-a/2) = 1，简化为 a = -4。故，a 值为 -4。

以 GTP-4o 为裁判，分析两个模型的回答后发现，答案 B（FLow-DPO）更为优秀，原因在于：

1.概念解释

答案 A 提到：“我们可利用斜率间的负倒数关系求解 a”。答案 B 详细解释了垂线的概念，特别强调了垂线的斜率为负倒数。这样的解答更富教育意义，有助于读者理解数学推理背后的逻辑。

2.解题思路清晰

答案 A 推演出了正确的方程并解出了方程，但引入过多不必要的步骤。

例如，将方程改写为 2y = -ax - 3 并除以 2 的中间步骤比所需步骤复杂。

答案 B 即刻使用两方程的斜截式简化了方法。它明确阐释了如何求出斜率，并直接对比了两等式的斜率，过程更为直接易懂。

结论

答案 B 的解释较为清晰和深入，兼注重概念和公式，避免了不必要的复杂性，这种逐步方法更易理解和掌握。

从实际数学问题解决情况看，Flow-DPO 生成的推理过程不仅更为详尽，还消除了不必要的复杂性，提高了可读性和理解性。

如何实现这一点呢？

两大模型协同合作

针对 LLM 在解决数学问题时反馈信息有限、标注数据质量较差等问题，研究团队提出了创新方法。

通过在线学习流（Flow）和直接偏好优化（DPO）学习，生成高质量的推理路径。

具体分为两个步骤：

1.增量输出生成 Flow（Incremental Output Production Flow）

Flow-DPO 采用了增量输出生成 Flow，有两独立 LLM（Answer LLM 和 Stop LLM）协作，通过迭代通信构建解决方案。

Answer LLM 逐渐生成有限答案块，Stop LLM 则检查部分答案是否达到最终状态，两者通过迭代学习不断改进。

Answer LLM 和 Stop LLM 用同一基础模型，但借助不同 LoRA 适配器微调，专为各自任务而设计。

训练中，Flow-DPO 可实现较精细控制小块大小，灵活适应不同概念和方法，大块大小则类似单次模型生成。

2.在线 Flow 学习与回滚（Online Flow Learning with Rollouts）

Flow-DPO 通过在线 DPO 学习和回滚增强 Flow。

每输入问题，Answer LLM 生成答案片段，直至获得完整回答。

模型在每个输出节点进行随机展开，如生成初始答案片段后，Stop LLM 判断“否”，Flow 继续生成新答案片段，基于部分答案继续构建。

两个答案不同，作为答案语言模型的 DPO 对，引导选出正确答案片段为首选响应。

显著提升 LLM 数学推理能力显著提升

为验证 Flow-DPO 性能，团队设计了仔细的验证实验，详细设置如下

数据集：MetaMath 数据集，基于 GSM8K 和 MATH 数据集，经过数据增强技术提升。
模型选择：两规模不同模型：Llama-3-8B-Instruct 和 Phi-3-medium-128k-instruct (14B)
Flow 学习阶段：Flow 学习阶段，团队采用不同 LoRA 适配器对 Answer LLM 和 Stop LLM 微调，让在 DPO 训练中更专业。
编译阶段：收集 Flow 生成的正确推理路径和基线模型生成的正确推理路径，独立评估。

结果显示，Flow-DPO 的应用后，Llama3 和 Phi3 在数学推理方面能力大幅提升！

具体结果分析如下：

1.渐进验证准确率（Progressive Validation Accuracy）

渐进验证准确率准确定义，表示模型对输入训练数据的累积准确度，在线 DPO 训练显著提升 Flow 泛化能力。

实验结果表明，在线 DPO 训练使 Flow 的泛化能力显著增强。

对于 Llama-3-8B-Instruc 模型，在仅 2000 个训练实例内，在线 DPO 学习已提升了 20% Flow 的性能。对于 Phi-3-medium-128k-instruct 模型，在线 DPO 学习使其准确率提高 4 个百分点，达到了83%.

2.推理路径质量

Flow 生成的推理路径质量优于基线和模型生成的正确推理路径。

对于 Llama-3-8B-Instruct 模型，Flow 生成的推理路径在 GSM8K 和 MATH 数据集上微调准确率分别提高了 6% 和 7.8%。

对于 Phi-3-medium-128k-instruct 模型，Flow 生成的推理路径在两数据集上的微调准确率分别提高了 1.9% 和 2.1%.

除上述垂直线问题外，研究团队还公布了更多真实解题答案和比较，如有兴趣可查看论文的更多相关信息。

令人惊讶的是，曾让 LLM 头痛的数学问题如今得到迅速提升！

具备卓越逻辑分析能力，我们期待 LLM 将来解决更多复杂问题！

参考链接：

[1]https://arxiv.org/abs/2410.22304

广告声明：文内含有的对外跳转链接（包括不限于超链接、二维码、口令等形式），用于传递更多信息，节省甄选时间，结果仅供参考。

声明

1.本站遵循行业规范，任何转载的稿件都会明确标注作者和来源；2.本站的原创文章，请转载时务必注明文章作者和来源，不尊重原创的行为我们将追究责任；3.作者投稿可能会经我们编辑修改或补充。