DeepSeek 突围奥秘曝光:一招 MLA 让全世界抄作业,150 + 天才集结,开出千万年薪

xxn 阅读:38109 2025-02-01 16:01:39 评论:0

外媒 SemiAnalysis 的一篇深度长文,全面分析了 DeepSeek 背后的秘密 —— 不同于其他"副业"项目,实际投入的训练成本远超 600 万美金,150 多位高校人才千万年薪,攻克 MLA 直接让推理成本暴降......

DeepSeek 这波强攻,彻底把 OpenAI 逼急了 —— 深夜紧急上线 o3-mini

整整半个月,中国 AI 承包了国内外各大头条,影响力只增不减。

关于 DeepSeek 模型训练数据、GPU 用量、成员构成、RL 训练算法,早已成为所有人的关注焦点。

SemiAnalysis 一篇深度报道中,从多个方面进行了推测 —— 训练成本、对闭源模型利润影响、团队等等。

其中一些关键亮点包括:

  • DeepSeek 不是「副业」,在 GPU 等硬件支出远超 5 亿美元,论文中 600 万美元仅是预训练运行 GPU 成本,研发、硬件总拥有成本(TCO)被排除在外

  • DeepSeek 大约有 5 万块 Hopper GPU,包括特供版 H800 和 H20

  • DeepSeek 大约有 150 名员工,并定期从北大、浙大等招募顶尖人才,据称有潜力的候选人能拿到超 130 万美元(934 万元)薪水

  • DeepSeek 一个关键创新 —— 多头潜注意力(MLA),耗时多月开发,将每个查询 KV 量减少 93.3%,显著降低推理价格

  • o3 性能远超 R1 和 o1,谷歌 Gemini 2.0 Flash Thinking 与 R1 不相上下

  • V3 和 R1 发布后,H100 价格猛涨,杰文斯悖论(Jevonʼs Paradox)正发挥作用

5 万块 Hopper GPU,投资超 5 亿美金

DeepSeek 背后顶级投资者幻方量化(High-Flyer),很早就洞察到了 AI 在金融领域之外的巨大潜力,以及规模化部署的关键重要性。

基于这一认知,他们持续扩大 GPU 投资规模。

在使用数千个 GPU 集群进行模型实验后,幻方在 2021 年投资购入了 10,000 块 A100,这一决策最终证明是极具前瞻性的。

随着业务发展,他们在 2023 年 5 月决定分拆成立「DeepSeek」,以更专注地推进 AI 技术发展。由于当时外部投资者对 AI 领域持谨慎态度,幻方选择自行提供资金支持。

目前,两家公司在人力资源和计算资源方面保持密切合作。

与媒体将其描述为「副业项目」不同,DeepSeek 已发展成为一个严肃且协调有序的重要项目。即使考虑到出口管制的影响,高级分析师估计他们在 GPU 方面的投资规模已超 5 亿美元。

据 SemiAnalysis 评估,他们拥有约 50,000 块 Hopper 架构 GPU,这些计算资源在幻方和 DeepSeek 之间共享使用,并在地理位置上进行了分散部署,用于交易、推理、训练和研究等多个领域。

根据分析,DeepSeek 在服务器方面的资本支出总额约为 16 亿美元,而运营这些计算集群的成本高达 9.44 亿美元。

150 + 顶尖人才,年薪 934 万

在人才战略方面,DeepSeek 专注于招募中国本土人才,不过分看重候选人的过往履历,而是更注重其实际能力和求知欲望。

他们经常在北京大学和浙江大学等顶尖高校举办招聘活动,现有员工中很多都来自这些学校。

公司的职位设置非常灵活,不会过分限定岗位职责,招聘广告甚至强调可以自由使用数万个 GPU 资源。

他们提供极具竞争力的薪酬待遇,据报道为优秀候选人提供的年薪可达 130 万美元以上,远超其他科技巨头和 AI 实验室的水平。

目前公司约有 150 名员工,并保持快速扩张态势。

历史经验表明,资金充足且目标明确的创业公司,往往能够突破现有技术边界。

与谷歌等大公司的繁琐决策流程相比,DeepSeek 凭借自主融资的优势,能够更快速地将创新理念付诸实践。

有趣的是,DeepSeek 在运营模式上却与谷歌相似,主要依靠自建数据中心而非外部服务提供商。

这种模式为技术创新提供了更大的实验空间,使他们能够在整个技术栈上进行深度创新。

在 SemiAnalysis 看来,DeepSeek 已经成为当今最优秀的「开源权重」(open weights)实验室,其成就超越了 Meta Llama、Mistral 等竞争对手。

训练成本不止 600 万美金

DeepSeek 的定价策略和运营效率在本周引发了广泛关注,特别是有关 DeepSeek V3 训练成本「600 万美元」的报道。

但事实上,预训练成本仅是整体投入中的一小部分。

训练成本解析

高级分析师认为,预训练阶段的支出远不能代表模型的实际总投入。

据他们评估,DeepSeek 在硬件方面的累计投资已远超 5 亿美元。在开发新架构的过程中,需要投入大量资源用于测试新理念、验证新架构设计和进行消融实验(ablation studies)。

比如,作为 DeepSeek 重要技术突破的多头潜注意力机制(Multi-Head Latent Attention),其开发周期就长达数月,消耗了大量的人力资源和计算资源。

论文中,提到的 600 万美元仅指预训练阶段的 GPU 直接成本,这只是模型总成本的一个组成部分。

其中并未包含研发投入、硬件设施的总拥有成本(TCO)等关键要素。

举例来说,Claude 3.5 Sonnet 训练成本就达到了数千万美元。

如果这就是 Anthropic 所需的全部投入,他们就不会从谷歌筹集数十亿美元,更不会从亚马逊获得数百亿美元的投资。

这是因为他们需要持续投入实验研究、架构创新、数据采集与清洗、人才招募等多个方面。

算法优化,让性能差距缩小

V3 无疑是一个令人瞩目的模型,但需要在合适的参照系下评估其成就。

许多分析将 V3 与 GPT-4o 进行对比,强调 V3 超越了后者的性能。这个结论虽然正确,但需要注意 GPT-4o 是在 2024 年 5 月发布的。

在 AI 快速迭代的背景下,半年前的技术水平已显得相对陈旧。

此外,随着时间推移,用更少的计算资源实现相当或更强的性能,也符合行业发展规律。推理成本的持续下降正是 AI 进步的重要标志。

一个典型的例子是,现在可以在普通笔记本电脑上运行的小型模型,已能达到与 GPT-3 相当的性能水平,而后者在发布时需要超级计算机进行训练,且推理阶段也需要多个 GPU 支持。

换言之,算法的持续优化使得训练和推理同等性能的模型,所需的计算资源不断减少,这种趋势在行业内屡见不鲜。

目前的发展趋势表明,AI 实验室在绝对投入增加的同时,单位投入所能获得的智能水平提升更为显著。

据估计,算法效率每年提升约 4 倍,这意味着实现相同性能所需的计算资源每年减少 75%。

Anthropic CEO Dario 的观点更为乐观,认为算法优化可以带来 10 倍的效率提升。

就 GPT-3 级别的模型推理成本而言,已暴降 1200 倍。

在分析 GPT-4 成本演变时,高级分析师还观察到类似的下降趋势,尽管仍处于成本优化曲线的早期阶段。

与前述分析不同的是,这里的成本差异反映了性能提升和效率优化的综合效果,而非保持性能不变的单纯比较。

在这种情况下,算法改进和优化措施共同带来了约 10 倍的成本降低和性能提升。

值得强调的是,DeepSeek 独特之处在于他们率先实现了这一成本和性能的突破。

虽然开源模型权重的做法,此前已有 Mistral 和 Llama 等先例,但 DeepSeek 的成就仍然显著。

考虑到行业发展趋势,到今年年底,相关成本可能还会进一步下降 5 倍左右。

R1 与 o1 打平手,「推理」新范式

另一个引人关注的问题是,R1 能够达到与 o1 相当的性能水平,而 o1 仅在去年 9 月才发布。

那么,DeepSeek 是如何能在如此短的时间内,实现这一跨越的?

其关键在于,「推理」这一新范式的出现。

与传统范式相比,推理范式具有更快的迭代速度,且能以较少的计算资源获得显著收益。

正如 SemiAnalysis 在 scaling law 报告中指出

声明

1.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源;2.本站的原创文章,请转载时务必注明文章作者和来源,不尊重原创的行为我们将追究责任;3.作者投稿可能会经我们编辑修改或补充。

搜索
排行榜
关注我们

扫一扫关注我们,了解最新精彩内容