面壁智能联创谈 DeepSeek 出圈:与 OpenAI o1 不开源有关,R1 模型创造了新的 ChatGPT 时刻
2 月 5 日下午消息,近日,面壁智能联合创始人兼首席科学家刘知远在谈及 DeepSeek 近期引发的轰动时表示,“DeepSeek 近期发布的 R1 模型具有重要意义,因为它成功复现了 OpenAI o1 的深度推理能力,并且通过开源方式发布了详细介绍,为行业做出了重要贡献。”
刘知远指出,“OpenAI o1 未提供有关实现细节,就好比引爆了原子弹但没有透露秘方,而 DeepSeek 可能是全球首个能够通过纯强化学习技术复现 OpenAI o1 能力的团队,而且还将这种能力进行了开源。”
刘知远总结指出,DeepSeek R1 的训练过程中有两个关键亮点或价值所在:首先是通过规则驱动实现了大规模强化学习;其次是通过深度推理 SFT 数据与通用 SFT 数据的混合微调,实现了推理能力的跨任务泛化,这使得 DeepSeek R1 成功复现了 OpenAI o1 的推理水平。
首先,DeepSeek R1 基于 DeepSeek V3 模型,创新地利用大规模强化学习技术,成功构建了一个纯强化学习增强的强推理模型,即 DeepSeek-R1-Zero。这个成就非常重要,因为过去很少有团队能够成功将强化学习技术应用于大规模模型并实现大规模训练。DeepSeek 之所以能够实现大规模强化学习,其中一个关键技术特点在于采用了基于规则的方法,确保了强化学习的规模性和扩展性,这也是它的首个贡献。
其次,DeepSeek R1 的另一个重要贡献在于其强化学习技术不仅限于数学、算法等领域可以提供奖励信号,还广泛将强推理能力应用于其他领域。这也是用户在实际使用 DeepSeek R1 进行写作等任务时能够感受到其深度思考能力的原因。
刘知远说:“实现这种泛化能力分为两个阶段:首先,基于 DeepSeek V3 模型,通过增强推理可读性,生成了具有深度推理能力的 SFT(Supervised Fine-Tuning)数据,结合了深度推理和传统通用 SFT 数据用于微调大模型;随后,通过强化学习训练,获得具有强大泛化能力的强推理模型,即 DeepSeek R1。”
刘知远认为,DeepSeek R1 取得如此全球性的成功,一方面是因为 OpenAI 在发布 o1 后不开源,同时对 o1 的深度思考过程保密,并采用了高收费方式。“这导致 o1 无法让全球尽可能多的人体验深度思考带来的震撼,而 DeepSeek R1 则像 2023 年初 OpenAI 的 ChatGPT 一样,让所有人真正体验到这种震撼,这是 DeepSeek R1 引人注目的重要原因。”
广告声明:文中包含外链,用于提供更多信息,节省挑选时间,结果供参考。
1.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源;2.本站的原创文章,请转载时务必注明文章作者和来源,不尊重原创的行为我们将追究责任;3.作者投稿可能会经我们编辑修改或补充。