DeepSeek-R1 持续刷屏，连 Open R1 都来了！抱抱脸发起，1 天狂揽 1.9k 星

xxn 阅读：36361 2025-01-26 16:01:57 评论：0

当初 OpenAI 推出 Sora 项目时，Open Sora 项目曾风靡一时。

如今，国产大模型 DeepSeek-R1 成为最新的热门目标，开启了新一轮的追逐风潮。

HuggingFace 发起的 Open R1 项目引发了热烈反响。联合创始人兼 CEO Clem Delangue 表示：

我们的科学团队已开始致力于全面复制和开源R1，包括训练数据和脚本等。
我们希望通过发挥开源AI的力量，让全世界受益并揭示一些神话。

HuggingFace 的呼声响彻云霄。仅仅上线1天，GitHub 上的关注量已达1.9k。

DeepSeek-R1 的到来无疑给全球大模型圈带来了巨大震撼，并产生持续影响。

Open R1

然而，尽管DeepSeek-R1本身是开源的，但HuggingFace 为何发起了“Open R1”项目？

官方在项目页面解释道：

这个项目旨在构建R1 pipeline中缺失的部分，使每个人都能够复制并构建R1。

HuggingFace 表示，将按照DeepSeek-R1的技术报告，分3步完成该项目：

结合DeepSeek的官方技术报告，可知，Open R1 项目首要目标是利用R1数据蒸馏小模型，验证效果是否如DeepSeek所说。

DeepSeek共开源了6个通过R1蒸馏的小模型，其中蒸馏版本的Qwen-1.5在某些任务上甚至胜过GPT-4o。

随后，按照DeepSeek的说法，不使用SFT，仅依靠RL培训出R1-Zero，然后基于R1-Zero打造性能接近o1的R1模型。

多阶段训练指的是，DeepSeek-R1的技术报告中提到，训练流程包括四个阶段：

使用数千个CoT样本对基础模型进行SFT微调，为模型提供初始的推理能力。

在第一个SFT阶段的基础上，使用与训练R1-Zero相同的大规模RL方法，进一步提升模型的推理能力，尤其是在处理编程、数学、科学和逻辑推理任务时。

再次使用监督微调，提升模型在非推理方面的能力，例如事实知识、对话能力等。

这次强化学习的重点是使模型行为与人类偏好一致，提升模型的可用性和安全性。

当前，在GitHub仓库中，已经提供了几个文件：

当R1成为热议焦点时，阿尔特曼也加入了激动的行列。

最新消息是，他透露了o3-mini 的最新资讯：

ChatGPT Plus会员每天可以获得100条o3-mini查询。
Plus会员即将享受到操作员的服务，我们正在努力中！
下一个智能体Plus会员将首发使用。

这一消息让𝕏充满了快乐的气息（doge）：

Wow！DeepSeek居然让OpenAI主动甩卖！

参考链接：

本文来自微信公众号：量子位（ID：QbitAI），作者：鱼羊

广告声明：文内含有的对外跳转链接（包括不限于超链接、二维码、口令等形式），用于传递更多信息，节省甄选时间，结果仅供参考。

声明

1.本站遵循行业规范，任何转载的稿件都会明确标注作者和来源；2.本站的原创文章，请转载时务必注明文章作者和来源，不尊重原创的行为我们将追究责任；3.作者投稿可能会经我们编辑修改或补充。