DeepSeek 突围奥秘曝光:一招 MLA 让全世界抄作业,150 + 天才集结,开出千万年薪
外媒 SemiAnalysis 的一篇深度长文,全面分析了 DeepSeek 背后的秘密 —— 不同于其他"副业"项目,实际投入的训练成本远超 600 万美金,150 多位高校人才千万年薪,攻克 MLA 直接让推理成本暴降......
DeepSeek 这波强攻,彻底把 OpenAI 逼急了 —— 深夜紧急上线 o3-mini。
整整半个月,中国 AI 承包了国内外各大头条,影响力只增不减。
关于 DeepSeek 模型训练数据、GPU 用量、成员构成、RL 训练算法,早已成为所有人的关注焦点。
SemiAnalysis 一篇深度报道中,从多个方面进行了推测 —— 训练成本、对闭源模型利润影响、团队等等。
其中一些关键亮点包括:
DeepSeek 不是「副业」,在 GPU 等硬件支出远超 5 亿美元,论文中 600 万美元仅是预训练运行 GPU 成本,研发、硬件总拥有成本(TCO)被排除在外
DeepSeek 大约有 5 万块 Hopper GPU,包括特供版 H800 和 H20
DeepSeek 大约有 150 名员工,并定期从北大、浙大等招募顶尖人才,据称有潜力的候选人能拿到超 130 万美元(934 万元)薪水
DeepSeek 一个关键创新 —— 多头潜注意力(MLA),耗时多月开发,将每个查询 KV 量减少 93.3%,显著降低推理价格
o3 性能远超 R1 和 o1,谷歌 Gemini 2.0 Flash Thinking 与 R1 不相上下
V3 和 R1 发布后,H100 价格猛涨,杰文斯悖论(Jevonʼs Paradox)正发挥作用
5 万块 Hopper GPU,投资超 5 亿美金
DeepSeek 背后顶级投资者幻方量化(High-Flyer),很早就洞察到了 AI 在金融领域之外的巨大潜力,以及规模化部署的关键重要性。
基于这一认知,他们持续扩大 GPU 投资规模。
在使用数千个 GPU 集群进行模型实验后,幻方在 2021 年投资购入了 10,000 块 A100,这一决策最终证明是极具前瞻性的。
随着业务发展,他们在 2023 年 5 月决定分拆成立「DeepSeek」,以更专注地推进 AI 技术发展。由于当时外部投资者对 AI 领域持谨慎态度,幻方选择自行提供资金支持。
目前,两家公司在人力资源和计算资源方面保持密切合作。
与媒体将其描述为「副业项目」不同,DeepSeek 已发展成为一个严肃且协调有序的重要项目。即使考虑到出口管制的影响,高级分析师估计他们在 GPU 方面的投资规模已超 5 亿美元。
据 SemiAnalysis 评估,他们拥有约 50,000 块 Hopper 架构 GPU,这些计算资源在幻方和 DeepSeek 之间共享使用,并在地理位置上进行了分散部署,用于交易、推理、训练和研究等多个领域。
根据分析,DeepSeek 在服务器方面的资本支出总额约为 16 亿美元,而运营这些计算集群的成本高达 9.44 亿美元。
150 + 顶尖人才,年薪 934 万
在人才战略方面,DeepSeek 专注于招募中国本土人才,不过分看重候选人的过往履历,而是更注重其实际能力和求知欲望。
他们经常在北京大学和浙江大学等顶尖高校举办招聘活动,现有员工中很多都来自这些学校。
公司的职位设置非常灵活,不会过分限定岗位职责,招聘广告甚至强调可以自由使用数万个 GPU 资源。
他们提供极具竞争力的薪酬待遇,据报道为优秀候选人提供的年薪可达 130 万美元以上,远超其他科技巨头和 AI 实验室的水平。
目前公司约有 150 名员工,并保持快速扩张态势。
历史经验表明,资金充足且目标明确的创业公司,往往能够突破现有技术边界。
与谷歌等大公司的繁琐决策流程相比,DeepSeek 凭借自主融资的优势,能够更快速地将创新理念付诸实践。
有趣的是,DeepSeek 在运营模式上却与谷歌相似,主要依靠自建数据中心而非外部服务提供商。
这种模式为技术创新提供了更大的实验空间,使他们能够在整个技术栈上进行深度创新。
在 SemiAnalysis 看来,DeepSeek 已经成为当今最优秀的「开源权重」(open weights)实验室,其成就超越了 Meta Llama、Mistral 等竞争对手。
训练成本不止 600 万美金
DeepSeek 的定价策略和运营效率在本周引发了广泛关注,特别是有关 DeepSeek V3 训练成本「600 万美元」的报道。
但事实上,预训练成本仅是整体投入中的一小部分。
训练成本解析
高级分析师认为,预训练阶段的支出远不能代表模型的实际总投入。
据他们评估,DeepSeek 在硬件方面的累计投资已远超 5 亿美元。在开发新架构的过程中,需要投入大量资源用于测试新理念、验证新架构设计和进行消融实验(ablation studies)。
比如,作为 DeepSeek 重要技术突破的多头潜注意力机制(Multi-Head Latent Attention),其开发周期就长达数月,消耗了大量的人力资源和计算资源。
论文中,提到的 600 万美元仅指预训练阶段的 GPU 直接成本,这只是模型总成本的一个组成部分。
其中并未包含研发投入、硬件设施的总拥有成本(TCO)等关键要素。
举例来说,Claude 3.5 Sonnet 训练成本就达到了数千万美元。
如果这就是 Anthropic 所需的全部投入,他们就不会从谷歌筹集数十亿美元,更不会从亚马逊获得数百亿美元的投资。
这是因为他们需要持续投入实验研究、架构创新、数据采集与清洗、人才招募等多个方面。
算法优化,让性能差距缩小
V3 无疑是一个令人瞩目的模型,但需要在合适的参照系下评估其成就。
许多分析将 V3 与 GPT-4o 进行对比,强调 V3 超越了后者的性能。这个结论虽然正确,但需要注意 GPT-4o 是在 2024 年 5 月发布的。
在 AI 快速迭代的背景下,半年前的技术水平已显得相对陈旧。
此外,随着时间推移,用更少的计算资源实现相当或更强的性能,也符合行业发展规律。推理成本的持续下降正是 AI 进步的重要标志。
一个典型的例子是,现在可以在普通笔记本电脑上运行的小型模型,已能达到与 GPT-3 相当的性能水平,而后者在发布时需要超级计算机进行训练,且推理阶段也需要多个 GPU 支持。
换言之,算法的持续优化使得训练和推理同等性能的模型,所需的计算资源不断减少,这种趋势在行业内屡见不鲜。
目前的发展趋势表明,AI 实验室在绝对投入增加的同时,单位投入所能获得的智能水平提升更为显著。
据估计,算法效率每年提升约 4 倍,这意味着实现相同性能所需的计算资源每年减少 75%。
Anthropic CEO Dario 的观点更为乐观,认为算法优化可以带来 10 倍的效率提升。
就 GPT-3 级别的模型推理成本而言,已暴降 1200 倍。
在分析 GPT-4 成本演变时,高级分析师还观察到类似的下降趋势,尽管仍处于成本优化曲线的早期阶段。
与前述分析不同的是,这里的成本差异反映了性能提升和效率优化的综合效果,而非保持性能不变的单纯比较。
在这种情况下,算法改进和优化措施共同带来了约 10 倍的成本降低和性能提升。
值得强调的是,DeepSeek 独特之处在于他们率先实现了这一成本和性能的突破。
虽然开源模型权重的做法,此前已有 Mistral 和 Llama 等先例,但 DeepSeek 的成就仍然显著。
考虑到行业发展趋势,到今年年底,相关成本可能还会进一步下降 5 倍左右。
R1 与 o1 打平手,「推理」新范式
另一个引人关注的问题是,R1 能够达到与 o1 相当的性能水平,而 o1 仅在去年 9 月才发布。
那么,DeepSeek 是如何能在如此短的时间内,实现这一跨越的?
其关键在于,「推理」这一新范式的出现。
与传统范式相比,推理范式具有更快的迭代速度,且能以较少的计算资源获得显著收益。
正如 SemiAnalysis 在 scaling law 报告中指出
1.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源;2.本站的原创文章,请转载时务必注明文章作者和来源,不尊重原创的行为我们将追究责任;3.作者投稿可能会经我们编辑修改或补充。