DeepSeek R1 Preview 模型亮相,代码能力与 OpenAI o1 相当且确认开源

xxn 阅读:75283 2025-01-20 00:01:34 评论:0

DeepSeek 版 o1,发布了新消息。

尽管尚未正式发布,但已经在代码基准测试LiveCodeBench中跻身前三,表现相当于OpenAI o1的中档推理设置

需要注意的是,此消息并非指DeepSeek官方App中可试玩的DeepSeek-R1-Lite-Preview(轻量预览版)。

此次,DeepSeek摘下了轻量版的头衔,发布了DeepSeek-R1-Preview(预览版),代表着使用了更大规模的基础模型。

LiveCodeBench团队透露,他们正在与DeepSeek合作评估新模型的能力,而在这个合作中,DeepSeek团队不仅帮助他们发现了评分系统中的一些bug,还协助解决了这些问题。

同时,他们还分享了唯一可用的一份DeepSeek-R1-Preview的推理思路。

鉴于DeepSeek此前宣布R1模型将开源,一些网友纷纷表示,即将发布的开源模型在编程方面将与OpenAI o1的能力媲美,到2025年,编程或许只剩下按Tab键了。

DeepSeek推理大模型满血版

两个月前,DeepSeek在官网上线DeepSeek-R1-Lite-Preview时曾透露:

DeepSeek-R1-Lite-Preview采用了强化学习训练,推理中包括大量的反思和验证,遵循了新的缩放定律——推理越长,表现越强

在AIME测试基准中,随着推理长度的增加,DeepSeek-R1-Lite-Preview展现出稳定的得分提升。

后续的网友测试中,DeepSeek-R1-Lite的推理特点也得到了验证:

在某些情况下,模型似乎能够在生成推理步骤时自我纠正,表现出类似原生“自我反思”的能力。不过,没有训练数据、模型架构和技术报告/论文的细节,很难确认这一点。

期待未来的开源模型和API!

摘去Lite的头衔,变为DeepSeek-R1-Preview,代表着使用了更大基础模型。

先前的Lite版本已经在数学和代码任务上超越了o1-preview,大幅领先于GPT-4o。

在LiveCodeBench上,这个DeepSeek-R1-Preview的表现与OpenAI o1-Medium相当,引发了更多网友对开源模型和API的期待。

LiveCodeBench由UC伯克利、MIT和康奈尔大学团队共同推出,目的是对大型模型的代码能力进行全面且干净的评估。

为了避免测试数据泄露,他们采取了一种随着时间推移不断从人类编程竞赛平台收集新题目的方法。

除了代码生成,他们还将评估模型在代码自修复、执行以及测试输出预测等方面的能力。这种实时更新的、确保公平性和可靠性的测试方法获得了开发者社区的认可。

有些程序员呼吁Cursor将R1-Preview直接集成到Agent模式中:

一个小插曲

在春节前夕,许多国内大模型团队正在进行模型更新。看起来OpenAI打算利用这段假期搞点事情,阿尔特曼在帖子中透露:

o3-mini的外部合作测试已完成,最终版已确定,将在几周内推出,并且将同时推出API和ChatGPT。

在后续的对话中,阿尔特曼还确认了该模型更多的基本情况:

  • o3-mini的速度将非常快

  • o3-mini在大多数情况下不如o1-pro

  • o3 pro的收费从每月$200起

  • OpenAI正在思考如何使AI一次性输出更多内容

  • 计划在2025年将GPT系列和o系列合并

本文来自微信公众号:量子位(ID:QbitAI),作者:梦晨、西风,原标题《DeepSeek新模型霸榜,代码能力与OpenAI o1相当且确认开源,网友:今年编程只剩Tab键》

广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考。

声明

1.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源;2.本站的原创文章,请转载时务必注明文章作者和来源,不尊重原创的行为我们将追究责任;3.作者投稿可能会经我们编辑修改或补充。

搜索
排行榜
关注我们

扫一扫关注我们,了解最新精彩内容