DeepSeek-R1 持续刷屏,连 Open R1 都来了!抱抱脸发起,1 天狂揽 1.9k 星

xxn 阅读:36361 2025-01-26 16:01:57 评论:0

当初 OpenAI 推出 Sora 项目时,Open Sora 项目曾风靡一时。

如今,国产大模型 DeepSeek-R1 成为最新的热门目标,开启了新一轮的追逐风潮。

HuggingFace 发起的 Open R1 项目引发了热烈反响。联合创始人兼 CEO Clem Delangue 表示:

我们的科学团队已开始致力于全面复制和开源R1,包括训练数据和脚本等。

我们希望通过发挥开源AI的力量,让全世界受益并揭示一些神话。

HuggingFace 的呼声响彻云霄。仅仅上线1天,GitHub 上的关注量已达1.9k。

DeepSeek-R1 的到来无疑给全球大模型圈带来了巨大震撼,并产生持续影响。

Open R1

然而,尽管DeepSeek-R1本身是开源的,但HuggingFace 为何发起了“Open R1”项目?

官方在项目页面解释道:

这个项目旨在构建R1 pipeline中缺失的部分,使每个人都能够复制并构建R1。

HuggingFace 表示,将按照DeepSeek-R1的技术报告,分3步完成该项目:

  • 第1步:使用DeepSeek-R1对高质量语料库进行蒸馏,复制R1-Distill 模型。

  • 第2步:复制DeepSeek用于构建R1-Zero的纯强化学习(RL)pipeline。这可能包括创建新的大规模数据集进行数学、推理和代码整理。

  • 第3步:通过多阶段训练,从基础模型过渡到RL版本。

结合DeepSeek的官方技术报告,可知,Open R1 项目首要目标是利用R1数据蒸馏小模型,验证效果是否如DeepSeek所说。

DeepSeek共开源了6个通过R1蒸馏的小模型,其中蒸馏版本的Qwen-1.5在某些任务上甚至胜过GPT-4o。

随后,按照DeepSeek的说法,不使用SFT,仅依靠RL培训出R1-Zero,然后基于R1-Zero打造性能接近o1的R1模型。

多阶段训练指的是,DeepSeek-R1的技术报告中提到,训练流程包括四个阶段:

  • 冷启动

使用数千个CoT样本对基础模型进行SFT微调,为模型提供初始的推理能力。

  • 面向推理的强化学习

在第一个SFT阶段的基础上,使用与训练R1-Zero相同的大规模RL方法,进一步提升模型的推理能力,尤其是在处理编程、数学、科学和逻辑推理任务时。

  • 拒绝采样和监督微调

再次使用监督微调,提升模型在非推理方面的能力,例如事实知识、对话能力等。

  • 针对所有场景的强化学习

这次强化学习的重点是使模型行为与人类偏好一致,提升模型的可用性和安全性。

当前,在GitHub仓库中,已经提供了几个文件:

  • GRPO 实现

  • 训练和评估代码

  • 合成数据生成器

阿尔特曼坐不住了

当R1成为热议焦点时,阿尔特曼也加入了激动的行列。

最新消息是,他透露了o3-mini 的最新资讯:

ChatGPT Plus会员每天可以获得100条o3-mini查询。

Plus会员即将享受到操作员的服务,我们正在努力中!

下一个智能体Plus会员将首发使用。

这一消息让𝕏充满了快乐的气息(doge):

Wow!DeepSeek居然让OpenAI主动甩卖!

参考链接:

  • [1]https://github.com/huggingface/open-r1

  • [2]https://x.com/ClementDelangue/status/1883154611348910181

本文来自微信公众号:量子位(ID:QbitAI),作者:鱼羊

广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考。

声明

1.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源;2.本站的原创文章,请转载时务必注明文章作者和来源,不尊重原创的行为我们将追究责任;3.作者投稿可能会经我们编辑修改或补充。

搜索
排行榜
关注我们

扫一扫关注我们,了解最新精彩内容