Deepseek 新模型意外曝光!编程跑分一举超越 Claude 3.5 Sonnet

xxn 阅读:73792 2024-12-26 16:03:13 评论:0

深度搜索-v3 意外曝光?官宣来临之前

根据 Reddit 用户的爆料,v3 已在 API 和网页上发布,同时一些榜单跑分也已公布。

在 Aider 多语言编程测试排行榜中,Deepseek-v3 超越了 Claude 3.5 Sonnet,排名第一。

(相较于 Deepseek-v2.5,完成率从 17.8% 大幅提升至 48.4%。)

在 LiveBench 测试中,Deepseek-v3 被评为当前最强大的开源 LLM,在非推理模型中仅次于 gemini-exp-1206,排名第二。

目前在 Hugging Face 上已经有了 Deepseek-v3(Base)的开源权重,只是尚未上传模型介绍卡片。

综合多方爆料来看,Deepseek-v3 在性能上有了大幅提升,相较于前代 v2、v2.5。

v2、v2.5 与 v3 配置对比

Deepseek-v3 的基本配置如下:

  • MoE 架构采用了 685B 参数;

  • 共有 256 位专家,使用 sigmoid 函数作为路由方式,每次选择前 8 个专家 (Top-k=8);

  • 支持 64K 上下文,默认支持 4K,最长支持 8K 上下文;

  • 大约每秒处理 60 个 tokens;

在 Aider 测试中,仍是 Instruct 版本击败了 Claude 3.5 Sonnet(该版本目前未发布)。

深入研究 Deepseek-v3 配置文件的机器学习爱好者 Vaibhav (VB) Srivastav 指出了 v3 与 v2、v2.5 的关键区别。

与今年 5 月 6 日官宣开源的 v2 相比,经 AI 整理成表格如下:

可以看出,v3 在各项参数上几乎是 v2 的增强版。

瓦哥强调了模型结构出现的三个关键变化:

1. 在 MOE 结构中,v3 采用了 sigmoid 作为门控函数,取代了 v2 中的 softmax 函数。这使得模型可以在更大的专家集合上进行选择,而不限于像 softmax 函数那样将输入分配给少数几个专家。

2. v3 引入了一个新的 Top-k 选择方法 noaux_tc,无需辅助损失。

简单来说,MoE 模型通常需要辅助损失以帮助训练,主要是为了更好地学习如何选择每个输入样本的 Top-k 个最相关的专家。

而新方法可以通过主要任务的损失函数直接有效地选择 Top-k 个专家,无需依赖辅助损失。这简化了训练流程并提高了训练效率。

瓦哥通过 DeepSeek 逐步解释了此方法,称其为基于群体的专家选择算法,将专家划分为不同的小组,并在每个小组内部选择最优秀的 k 名专家。

3. v3 增加了一个新参数 e_score_correction_bias,用于调整专家评分,以获得更好的性能在专家选择或模型训练过程中。

与本月 10 日宣布开源的 v2.5 对比,v3 的配置展现出优势,特别是在支持联网搜索功能、专家数量增加以及每个 token 的专家数量等方面有所提升。

同样经 AI 整理成表格如下:

具体来看,v3 在配置上超越了 v2.5,包括更多的专家数量、更大的中间层尺寸和每个 token 的专家数量。

查看以上结果,瓦哥表示未来一定要与中国的开源团队见面。(doge)

网友测试 Deepseek-v3

独立开发者 Simon Willison(Web 开发框架 Django 创始人之一)在第一时间对 v3 进行了实际测试。

接下来看看测试结果。

DeepSeek-V3,基于 OpenAI 的 GPT-4 架构……

测试图像生成能力,生成一张骑自行车的鹈鹕的 SVG 图像。

生成图像如下:

在另一网友的测试中,Deepseek-v3 表示自己来自 OpenAI??

该网友猜测,这可能是由于训练时使用了 OpenAI 模型的回复。

尽管如此,未正式宣布的 Deepseek-v3 已经跻身 LiveBench 最强开源 LLM 宝座,在某些网友看来,这比只专注期货的 OpenAI 领先。(手动狗头)

抱抱脸:

  • https://huggingface.co/deepseek-ai/DeepSeek-V3-Base

参考链接:

  • [1]https://x.com/reach_vb/status/1871956999971414277

  • [2]https://simonwillison.net/2024/Dec/25/deepseek-v3/

  • [3]https://x.com/reach_vb/status/1872000205954089011

  • [4]https://www.reddit.com/r/LocalLLaMA/comments/1hm2xvb/deepseek_v3_is_already_up_on_api_and_web/

本文来自微信公众号:量子位(ID:QbitAI),作者:一水

广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考。

声明

1.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源;2.本站的原创文章,请转载时务必注明文章作者和来源,不尊重原创的行为我们将追究责任;3.作者投稿可能会经我们编辑修改或补充。

搜索
排行榜
关注我们

扫一扫关注我们,了解最新精彩内容