DeepSeek-R1 持续刷屏,连 Open R1 都来了!抱抱脸发起,1 天狂揽 1.9k 星
当初 OpenAI 推出 Sora 项目时,Open Sora 项目曾风靡一时。
如今,国产大模型 DeepSeek-R1 成为最新的热门目标,开启了新一轮的追逐风潮。
HuggingFace 发起的 Open R1 项目引发了热烈反响。联合创始人兼 CEO Clem Delangue 表示:
我们的科学团队已开始致力于全面复制和开源R1,包括训练数据和脚本等。
我们希望通过发挥开源AI的力量,让全世界受益并揭示一些神话。
HuggingFace 的呼声响彻云霄。仅仅上线1天,GitHub 上的关注量已达1.9k。
DeepSeek-R1 的到来无疑给全球大模型圈带来了巨大震撼,并产生持续影响。
Open R1
然而,尽管DeepSeek-R1本身是开源的,但HuggingFace 为何发起了“Open R1”项目?
官方在项目页面解释道:
这个项目旨在构建R1 pipeline中缺失的部分,使每个人都能够复制并构建R1。
HuggingFace 表示,将按照DeepSeek-R1的技术报告,分3步完成该项目:
第1步:使用DeepSeek-R1对高质量语料库进行蒸馏,复制R1-Distill 模型。
第2步:复制DeepSeek用于构建R1-Zero的纯强化学习(RL)pipeline。这可能包括创建新的大规模数据集进行数学、推理和代码整理。
第3步:通过多阶段训练,从基础模型过渡到RL版本。
结合DeepSeek的官方技术报告,可知,Open R1 项目首要目标是利用R1数据蒸馏小模型,验证效果是否如DeepSeek所说。
DeepSeek共开源了6个通过R1蒸馏的小模型,其中蒸馏版本的Qwen-1.5在某些任务上甚至胜过GPT-4o。
随后,按照DeepSeek的说法,不使用SFT,仅依靠RL培训出R1-Zero,然后基于R1-Zero打造性能接近o1的R1模型。
多阶段训练指的是,DeepSeek-R1的技术报告中提到,训练流程包括四个阶段:
冷启动
使用数千个CoT样本对基础模型进行SFT微调,为模型提供初始的推理能力。
面向推理的强化学习
在第一个SFT阶段的基础上,使用与训练R1-Zero相同的大规模RL方法,进一步提升模型的推理能力,尤其是在处理编程、数学、科学和逻辑推理任务时。
拒绝采样和监督微调
再次使用监督微调,提升模型在非推理方面的能力,例如事实知识、对话能力等。
针对所有场景的强化学习
这次强化学习的重点是使模型行为与人类偏好一致,提升模型的可用性和安全性。
当前,在GitHub仓库中,已经提供了几个文件:
GRPO 实现
训练和评估代码
合成数据生成器
阿尔特曼坐不住了
当R1成为热议焦点时,阿尔特曼也加入了激动的行列。
最新消息是,他透露了o3-mini 的最新资讯:
ChatGPT Plus会员每天可以获得100条o3-mini查询。
Plus会员即将享受到操作员的服务,我们正在努力中!
下一个智能体Plus会员将首发使用。
这一消息让𝕏充满了快乐的气息(doge):
Wow!DeepSeek居然让OpenAI主动甩卖!
参考链接:
[1]https://github.com/huggingface/open-r1
[2]https://x.com/ClementDelangue/status/1883154611348910181
本文来自微信公众号:量子位(ID:QbitAI),作者:鱼羊
广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考。
1.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源;2.本站的原创文章,请转载时务必注明文章作者和来源,不尊重原创的行为我们将追究责任;3.作者投稿可能会经我们编辑修改或补充。