直逼 DeepSeek-R1-32B,UC 伯克利等开源全新 SOTA 推理模型 OpenThinker-32B

xxn 阅读:19790 2025-02-13 18:03:22 评论:0

新推出的32B推理模型,数据使用仅为1/8,可以与同类DeepSeek-R1模型不分上下

近日,斯坦福大学、加州大学伯克利分校与华盛顿大学等多个机构联合发布了最新的SOTA级推理模型——OpenThinker-32B,并开源了高达114k的训练数据。

研究团队发现,通过基于DeepSeek-R1模型校验的大规模标注优质数据集,便能训练出最先进的推理模型。

具体方案包括数据规模化、推理过程的验证以及模型规模的扩张。

OpenThinker-32B在多个基准测试中表现卓越,其性能远超李飞飞团队的s1和s1.1模型,接近R1-Distill-32B。

值得一提的是,相较于使用了800k(含600k推理样本)的R1-Distill,OpenThinker-32B仅利用114k数据便取得相近的优异表现。

以上结果均通过开源评估框架Evalchemy得出

更进一步,OpenThinker-32还开放了模型权重、数据集、数据生成和训练代码,供研究者使用!

数据策展

团队使用之前用于训练OpenThinker-7B的OpenThoughts-114k数据集来推进OpenThinker-32B的训练。

他们应用DeepSeek-R1模型,收集了精心挑选的173,000个问题的推理与解答过程。这些原始数据随后作为OpenThoughts-Unverified-173k数据集公开。

整个流程的末尾是,如果推理过程未能通过认证,相关的数据样本将被过滤。

下图以可视化形式展示了整个过程。

研究团队首先输入源数据或问题提示,这些信息来源于不同领域和平台,如BAAI/TACO、DeepMind及Python提交等,涵盖代码、谜题、科学和数学等多个类别。

接下来,这些多样输入将进入核心处理模块——DeepSeek-R1,进行数据分析与处理。这些问题可分为三类:科学问题、数学及谜题和代码相关内容。

部分结果无需验证,可能是简单分析或直接输出;而需深入验证的内容,则利用大语言模型(LLM)与GT(Ground Truth)进行比对评估。如涉及代码,需执行代码并进行单元测试,确保其准确性和有效性。

最终,将不同方向的结果综合,生成开放思考及更全面的解决方案。

研究团队更新了最终的OpenThoughts-114k数据集,为其增加了名为“metadata”的配置,这些新列用于数据集构建:

  • problem

  • ground_truth_solution

  • test_cases (code only)

  • starter_code (code only)

  • DeepSeek_reasoning

  • DeepSeek_solution

  • domain

  • source

这些新增的元数据将极大方便该数据集在新场景中的应用,如数据过滤、领域切换、验证检查等。

使用这些元数据,用户能够轻松实现过滤、领域更换、验证检查及推理模板调整,只需一行代码即可完成。

load_dataset("open-thoughts/OpenThoughts-114k", "metadata", split="train")

研究团队希望看到社区利用这些问题和标准答案进行强化学习(RL)研究,DeepScaleR已证明在小规模下,此方法尤为有效。

验证

在构建最终的OpenThoughts-114k数据集的过程中,研究团队对答案进行了细致验证,剔除了不正确答案。

如下表所示,保留未通过验证的推理过程可能影响整体性能,但即便如此,未经验证模型与其他32B推理模型仍有优异表现。

验证旨在扩大训练提示集的多样性和规模,同时保持R1注释质量,此外,未经验证的数据也为后续探索提供了广泛空间。

针对代码问题,研究团队使用已有测试用例进行验证,从而完成推理的验证。

受到代码执行过程挑战的启发,他们在Curator中实现了大规模安全的代码执行框架,确保输出结果与预期一致。

对于数学问题,研究团队利用LLM评判器,同时处理标准答案和DeepSeek-R1生成的解答尝试。

研究发现,采用LLM评判器而非更严苛的解析引擎(如Math-Verify)可提高有效数据率以及下游模型的训练效果。

训练

研究团队使用LLaMa-Factory对Qwen2.5-32B-Instruct在OpenThoughts-114k数据集上进行了三次微调,使用上下文长度16k,完整的训练配置可在GitHub上查看。

OpenThinker-32B在AWS SageMaker集群上经过90小时训练,共计使用了2,880个H100小时

与此同时,OpenThinker-32B-Unverified在Leonardo超级计算机上使用96个4xA100节点(每个GPU64GB)训练了30小时,总共使用11,520个A100小时

评估

研究团队通过开源评估库Evalchemy(炼金术)对所有模型进行了评估。

在AIME24和AIME25测试中,通过计算五次运行结果的平均值来得出准确率,评估配置中使用了0.7的温度参数,限制模型响应在32,768个token以内,无需额外的系统或用户提示词,也不需特殊解码策略(如预算强制)。

在OpenThoughts项目启动时,团队设立了一个目标,即开发出一个能够达到 DeepSeek-R1-Distill-Qwen-32B 同等性能的开放数据模型。

现在,二者之间的性能差距几乎消失。

最后,研究团队对于社区在过去几周取得的迅速进展感到欣喜,并期待在此基础上加快进一步发展。

OpenThinker-32B的开源充分展示了数据、验证与模型规模之间的协同作用是提升推理能力的关键。

这一成果不仅促进了开源推理模型的进展,也为整个AI社区提供了宝贵的资源与启示。

本文来源于微信公众号:新智元(ID:AI_era),文章标题《直逼DeepSeek-R1-32B,超过李飞飞s1!UC伯克利等提供了全新的SOTA推理模型》

广告声明:文中包含的外部链接(包括但不限于超链接、二维码、口令等)旨在提供更多信息,旨在节省选择时间,具体结果仅供参考。

声明

1.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源;2.本站的原创文章,请转载时务必注明文章作者和来源,不尊重原创的行为我们将追究责任;3.作者投稿可能会经我们编辑修改或补充。

搜索
排行榜
关注我们

扫一扫关注我们,了解最新精彩内容