新研究揭示 DeepSeek / o3 弱点:频繁切换思路放弃正确方向,最短答案往往就是对的

xxn 阅读:87485 2025-02-03 16:02:32 评论:0

近来,随着DeepSeek和o1/o3等推理大模型的崛起,有研究人员开始关注这些模型的弱点。

最新研究指出,在处理高难度问题时,推理大模型可能会频繁切换解题思路,导致缺乏深入探索而失败,这种现象被称为“Underthinking”(欠思考)。

研究小组来自腾讯AI实验室、苏州大学和上海交通大学,他们主要研究了开源的DeepSeek-R1和Qwen QwQ系列模型。

通过分析AI错误答案,研究人员发现目前的推理大模型常常在开始思考时选择了正确的路线,但往往过早地放弃,开始尝试其他思路,结果导致了成千上万个不必要的token生成,对解题没有帮助。

这种“无效努力”不仅耗费了计算资源,还明显降低了答案的准确度。

“三心二意”揭示问题

这种现象在解决数学竞赛等复杂任务时尤为明显。

为了系统分析,研究团队对具有挑战性的测试集MATH500、GPQA Diamond和AIME2024上的类o1模型QwQ-32B-Preview、DeepSeek-R1-671B等进行了实验。

与正确回答相比,类o1模型在错误回答中平均消耗了多225%的token,原因是思维切换频率增加了418%。

为了更深入地分析这一现象,研究团队开发了一套评估框架,用于判断放弃的推理路径是否足以得出正确答案。

结果显示,许多模型在回答问题的早期阶段思路是正确的,但却没有继续深入进行推理。

超过70%的错误回答中至少包含一个正确的思路。此外,在超过50%的错误回答中,有10%以上的思路是正确的。

例如,模型可能识别了问题的正确解题方向,但却没有持续深入探索,而是不断切换思路,浪费了大量token,最终未能给出正确答案。

这种不足不仅浪费了计算资源,还影响了准确率。

如何优化AI解题过程

为了让模型更专注于正确解题,研究者提出了一种“思路切换惩罚机制”(Thought Switching Penalty,TIP)。

TIP通过对触发思路切换的关键词施加惩罚来延长模型在当前路径上的探索时间。

实验结果表明,引入TIP可以提高模型在数学测试上的准确率,减少无效切换,同时提高答案质量。

在AIME2024测试上,使用TIP的QwQ-32B-Preview模型准确率从41.7%提升至45.8%,同时无效切换下降,答案质量提高。

这种优化方式无需重新训练模型,仅调整解码策略即可,具有实用价值。

另一个实验

此外,UC Berkeley教授Alex Dimakis也分享了类似的发现,即对于DeepSeek-R1和其他推理模型,错误答案的长度要长于正确答案。

基于这一发现,他们提出了“简洁解码”(Laconic decoding)的解决方案。同时运行5次模型,选择生成token最少的答案。

初步实验结果显示,在AIME2024测试上,简洁解码可以使准确率提高6%-7%,比Consensus Decoding更快且效果更好。

了解更多请查看:https://arxiv.org/

参考链接:

  • [1]https://x.com/tuzhaopeng/status/1885179412163027406

  • [2]https://x.com/AlexGDimakis/status/1885447830120362099

本文来自微信公众号:量子位(ID:QbitAI),作者:梦晨西风

广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考。

声明

1.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源;2.本站的原创文章,请转载时务必注明文章作者和来源,不尊重原创的行为我们将追究责任;3.作者投稿可能会经我们编辑修改或补充。

搜索
排行榜
关注我们

扫一扫关注我们,了解最新精彩内容