DeepSeek 突围奥秘曝光：一招 MLA 让全世界抄作业，150 + 天才集结，开出千万年薪

xxn 阅读：38109 2025-02-01 16:01:39 评论：0

外媒 SemiAnalysis 的一篇深度长文，全面分析了 DeepSeek 背后的秘密 —— 不同于其他"副业"项目，实际投入的训练成本远超 600 万美金，150 多位高校人才千万年薪，攻克 MLA 直接让推理成本暴降......

DeepSeek 这波强攻，彻底把 OpenAI 逼急了 —— 深夜紧急上线 o3-mini。

整整半个月，中国 AI 承包了国内外各大头条，影响力只增不减。

关于 DeepSeek 模型训练数据、GPU 用量、成员构成、RL 训练算法，早已成为所有人的关注焦点。

SemiAnalysis 一篇深度报道中，从多个方面进行了推测 —— 训练成本、对闭源模型利润影响、团队等等。

其中一些关键亮点包括：

DeepSeek 不是「副业」，在 GPU 等硬件支出远超 5 亿美元，论文中 600 万美元仅是预训练运行 GPU 成本，研发、硬件总拥有成本（TCO）被排除在外
DeepSeek 大约有 5 万块 Hopper GPU，包括特供版 H800 和 H20
DeepSeek 大约有 150 名员工，并定期从北大、浙大等招募顶尖人才，据称有潜力的候选人能拿到超 130 万美元（934 万元）薪水
DeepSeek 一个关键创新 —— 多头潜注意力（MLA），耗时多月开发，将每个查询 KV 量减少 93.3%，显著降低推理价格
o3 性能远超 R1 和 o1，谷歌 Gemini 2.0 Flash Thinking 与 R1 不相上下
V3 和 R1 发布后，H100 价格猛涨，杰文斯悖论（Jevonʼs Paradox）正发挥作用

5 万块 Hopper GPU，投资超 5 亿美金

DeepSeek 背后顶级投资者幻方量化（High-Flyer），很早就洞察到了 AI 在金融领域之外的巨大潜力，以及规模化部署的关键重要性。

基于这一认知，他们持续扩大 GPU 投资规模。

在使用数千个 GPU 集群进行模型实验后，幻方在 2021 年投资购入了 10,000 块 A100，这一决策最终证明是极具前瞻性的。

随着业务发展，他们在 2023 年 5 月决定分拆成立「DeepSeek」，以更专注地推进 AI 技术发展。由于当时外部投资者对 AI 领域持谨慎态度，幻方选择自行提供资金支持。

目前，两家公司在人力资源和计算资源方面保持密切合作。

与媒体将其描述为「副业项目」不同，DeepSeek 已发展成为一个严肃且协调有序的重要项目。即使考虑到出口管制的影响，高级分析师估计他们在 GPU 方面的投资规模已超 5 亿美元。

据 SemiAnalysis 评估，他们拥有约 50,000 块 Hopper 架构 GPU，这些计算资源在幻方和 DeepSeek 之间共享使用，并在地理位置上进行了分散部署，用于交易、推理、训练和研究等多个领域。

根据分析，DeepSeek 在服务器方面的资本支出总额约为 16 亿美元，而运营这些计算集群的成本高达 9.44 亿美元。

150 + 顶尖人才，年薪 934 万

在人才战略方面，DeepSeek 专注于招募中国本土人才，不过分看重候选人的过往履历，而是更注重其实际能力和求知欲望。

他们经常在北京大学和浙江大学等顶尖高校举办招聘活动，现有员工中很多都来自这些学校。

公司的职位设置非常灵活，不会过分限定岗位职责，招聘广告甚至强调可以自由使用数万个 GPU 资源。

他们提供极具竞争力的薪酬待遇，据报道为优秀候选人提供的年薪可达 130 万美元以上，远超其他科技巨头和 AI 实验室的水平。

目前公司约有 150 名员工，并保持快速扩张态势。

历史经验表明，资金充足且目标明确的创业公司，往往能够突破现有技术边界。

与谷歌等大公司的繁琐决策流程相比，DeepSeek 凭借自主融资的优势，能够更快速地将创新理念付诸实践。

有趣的是，DeepSeek 在运营模式上却与谷歌相似，主要依靠自建数据中心而非外部服务提供商。

这种模式为技术创新提供了更大的实验空间，使他们能够在整个技术栈上进行深度创新。

在 SemiAnalysis 看来，DeepSeek 已经成为当今最优秀的「开源权重」（open weights）实验室，其成就超越了 Meta Llama、Mistral 等竞争对手。

训练成本不止 600 万美金

DeepSeek 的定价策略和运营效率在本周引发了广泛关注，特别是有关 DeepSeek V3 训练成本「600 万美元」的报道。

但事实上，预训练成本仅是整体投入中的一小部分。

训练成本解析

高级分析师认为，预训练阶段的支出远不能代表模型的实际总投入。

据他们评估，DeepSeek 在硬件方面的累计投资已远超 5 亿美元。在开发新架构的过程中，需要投入大量资源用于测试新理念、验证新架构设计和进行消融实验（ablation studies）。

比如，作为 DeepSeek 重要技术突破的多头潜注意力机制（Multi-Head Latent Attention），其开发周期就长达数月，消耗了大量的人力资源和计算资源。

论文中，提到的 600 万美元仅指预训练阶段的 GPU 直接成本，这只是模型总成本的一个组成部分。

其中并未包含研发投入、硬件设施的总拥有成本（TCO）等关键要素。

举例来说，Claude 3.5 Sonnet 训练成本就达到了数千万美元。

如果这就是 Anthropic 所需的全部投入，他们就不会从谷歌筹集数十亿美元，更不会从亚马逊获得数百亿美元的投资。

这是因为他们需要持续投入实验研究、架构创新、数据采集与清洗、人才招募等多个方面。

算法优化，让性能差距缩小

V3 无疑是一个令人瞩目的模型，但需要在合适的参照系下评估其成就。

许多分析将 V3 与 GPT-4o 进行对比，强调 V3 超越了后者的性能。这个结论虽然正确，但需要注意 GPT-4o 是在 2024 年 5 月发布的。

在 AI 快速迭代的背景下，半年前的技术水平已显得相对陈旧。

此外，随着时间推移，用更少的计算资源实现相当或更强的性能，也符合行业发展规律。推理成本的持续下降正是 AI 进步的重要标志。

一个典型的例子是，现在可以在普通笔记本电脑上运行的小型模型，已能达到与 GPT-3 相当的性能水平，而后者在发布时需要超级计算机进行训练，且推理阶段也需要多个 GPU 支持。

换言之，算法的持续优化使得训练和推理同等性能的模型，所需的计算资源不断减少，这种趋势在行业内屡见不鲜。

目前的发展趋势表明，AI 实验室在绝对投入增加的同时，单位投入所能获得的智能水平提升更为显著。

据估计，算法效率每年提升约 4 倍，这意味着实现相同性能所需的计算资源每年减少 75%。

Anthropic CEO Dario 的观点更为乐观，认为算法优化可以带来 10 倍的效率提升。

就 GPT-3 级别的模型推理成本而言，已暴降 1200 倍。

在分析 GPT-4 成本演变时，高级分析师还观察到类似的下降趋势，尽管仍处于成本优化曲线的早期阶段。

与前述分析不同的是，这里的成本差异反映了性能提升和效率优化的综合效果，而非保持性能不变的单纯比较。

在这种情况下，算法改进和优化措施共同带来了约 10 倍的成本降低和性能提升。

值得强调的是，DeepSeek 独特之处在于他们率先实现了这一成本和性能的突破。

虽然开源模型权重的做法，此前已有 Mistral 和 Llama 等先例，但 DeepSeek 的成就仍然显著。

考虑到行业发展趋势，到今年年底，相关成本可能还会进一步下降 5 倍左右。

R1 与 o1 打平手，「推理」新范式

另一个引人关注的问题是，R1 能够达到与 o1 相当的性能水平，而 o1 仅在去年 9 月才发布。

那么，DeepSeek 是如何能在如此短的时间内，实现这一跨越的？

其关键在于，「推理」这一新范式的出现。

与传统范式相比，推理范式具有更快的迭代速度，且能以较少的计算资源获得显著收益。

正如 SemiAnalysis 在 scaling law 报告中指出

声明

1.本站遵循行业规范，任何转载的稿件都会明确标注作者和来源；2.本站的原创文章，请转载时务必注明文章作者和来源，不尊重原创的行为我们将追究责任；3.作者投稿可能会经我们编辑修改或补充。