Deepseek 新模型意外曝光！编程跑分一举超越 Claude 3.5 Sonnet

xxn 阅读：73896 2024-12-26 16:03:13 评论：0

深度搜索-v3 意外曝光？官宣来临之前

根据 Reddit 用户的爆料，v3 已在 API 和网页上发布，同时一些榜单跑分也已公布。

在 Aider 多语言编程测试排行榜中，Deepseek-v3 超越了 Claude 3.5 Sonnet，排名第一。

（相较于 Deepseek-v2.5，完成率从 17.8% 大幅提升至 48.4%。）

在 LiveBench 测试中，Deepseek-v3 被评为当前最强大的开源 LLM，在非推理模型中仅次于 gemini-exp-1206，排名第二。

目前在 Hugging Face 上已经有了 Deepseek-v3（Base）的开源权重，只是尚未上传模型介绍卡片。

综合多方爆料来看，Deepseek-v3 在性能上有了大幅提升，相较于前代 v2、v2.5。

v2、v2.5 与 v3 配置对比

Deepseek-v3 的基本配置如下：

在 Aider 测试中，仍是 Instruct 版本击败了 Claude 3.5 Sonnet（该版本目前未发布）。

深入研究 Deepseek-v3 配置文件的机器学习爱好者 Vaibhav (VB) Srivastav 指出了 v3 与 v2、v2.5 的关键区别。

与今年 5 月 6 日官宣开源的 v2 相比，经 AI 整理成表格如下：

可以看出，v3 在各项参数上几乎是 v2 的增强版。

瓦哥强调了模型结构出现的三个关键变化：

1. 在 MOE 结构中，v3 采用了 sigmoid 作为门控函数，取代了 v2 中的 softmax 函数。这使得模型可以在更大的专家集合上进行选择，而不限于像 softmax 函数那样将输入分配给少数几个专家。

2. v3 引入了一个新的 Top-k 选择方法 noaux_tc，无需辅助损失。

简单来说，MoE 模型通常需要辅助损失以帮助训练，主要是为了更好地学习如何选择每个输入样本的 Top-k 个最相关的专家。

而新方法可以通过主要任务的损失函数直接有效地选择 Top-k 个专家，无需依赖辅助损失。这简化了训练流程并提高了训练效率。

瓦哥通过 DeepSeek 逐步解释了此方法，称其为基于群体的专家选择算法，将专家划分为不同的小组，并在每个小组内部选择最优秀的 k 名专家。

3. v3 增加了一个新参数 e_score_correction_bias，用于调整专家评分，以获得更好的性能在专家选择或模型训练过程中。

与本月 10 日宣布开源的 v2.5 对比，v3 的配置展现出优势，特别是在支持联网搜索功能、专家数量增加以及每个 token 的专家数量等方面有所提升。

同样经 AI 整理成表格如下：

具体来看，v3 在配置上超越了 v2.5，包括更多的专家数量、更大的中间层尺寸和每个 token 的专家数量。

查看以上结果，瓦哥表示未来一定要与中国的开源团队见面。(doge）

独立开发者 Simon Willison（Web 开发框架 Django 创始人之一）在第一时间对 v3 进行了实际测试。

接下来看看测试结果。

DeepSeek-V3，基于 OpenAI 的 GPT-4 架构……

测试图像生成能力，生成一张骑自行车的鹈鹕的 SVG 图像。

生成图像如下：

在另一网友的测试中，Deepseek-v3 表示自己来自 OpenAI？？

该网友猜测，这可能是由于训练时使用了 OpenAI 模型的回复。

尽管如此，未正式宣布的 Deepseek-v3 已经跻身 LiveBench 最强开源 LLM 宝座，在某些网友看来，这比只专注期货的 OpenAI 领先。(手动狗头）

抱抱脸：

参考链接：

[1]https://x.com/reach_vb/status/1871956999971414277
[2]https://simonwillison.net/2024/Dec/25/deepseek-v3/
[3]https://x.com/reach_vb/status/1872000205954089011
[4]https://www.reddit.com/r/LocalLLaMA/comments/1hm2xvb/deepseek_v3_is_already_up_on_api_and_web/

本文来自微信公众号：量子位（ID：QbitAI），作者：一水

广告声明：文内含有的对外跳转链接（包括不限于超链接、二维码、口令等形式），用于传递更多信息，节省甄选时间，结果仅供参考。

声明

1.本站遵循行业规范，任何转载的稿件都会明确标注作者和来源；2.本站的原创文章，请转载时务必注明文章作者和来源，不尊重原创的行为我们将追究责任；3.作者投稿可能会经我们编辑修改或补充。