“DeepSeek 甚至绕过了英伟达 CUDA”,论文细节再引热议

xxn 阅读:90215 2025-01-29 12:00:24 评论:0
感谢IT之家网友 slax01 的线索分享!

英伟达刚刚从 DeepSeek-R1 引起的 4 万亿元市值缩水中恢复过来,但又迎来了新的挑战。

硬件媒体 Tom's Hardware 报导了新年的一个热点话题:DeepSeek 甚至绕过了 CUDA,选用更加底层的编程语言进行优化。

此次讨论焦点是 DeepSeek-V3 论文中披露的更多信息。

根据来自 Mirae Asset Securities Research(韩国未来资产证券)的分析,V3 的硬件效率相比 Meta 等高出 10 倍,概括为“他们完全重新构建了一切”。

在使用英伟达的 H800 GPU 训练 DeepSeek-V3 的过程中,他们专门针对需求,将 132 个流式多处理器(SMs)中的 20 个调整为负责服务器之间的通信,而非计算任务

这实际上规避了硬件在通信速度上的限制。

 DeepSeek-V3 技术报告

这一操作是通过英伟达的 PTX(Parallel Thread Execution)语言实现,而非 CUDA。

PTX 在接近汇编语言的级别运行,允许进行细微的优化,比如寄存器分配和线程/预取级别的调整。

这种编程方式复杂且难于维护,因此行业通常更倾向于使用类似 CUDA 的高级编程语言。

换句话说,他们在优化方面达到极致。

有网友评论到,如果某些人觉得 CUDA 太慢而转向 PTX,那一定是一群专业的量化交易者。

一位亚马逊的工程师发出深刻疑问:CUDA 还算是护城河吗?此类顶尖实验室是否能高效利用任何 GPU。

更有网友畅想,假如“新源神”DeepSeek 开源一个替代 CUDA 的方案……

那么情况会真的如此吗?

DeepSeek 是否真正绕过了 CUDA?

首先要明确的是,PTX 依然是英伟达 GPU 架构中的一项技术,它作为 CUDA 编程模型的中间表示,用于连接 CUDA 的高级语言代码及 GPU 的底层硬件指令。

PTX 与汇编语言相似,代码示例大致如下:

来源于 tinkerd.net

在编译过程中,CUDA 代码会先被翻译成 PTX 代码,之后 PTX 代码再被转换成目标 GPU 架构的机器码(SASS, Streaming ASSembler)。

CUDA 提供了高级编程接口和工具链,因此减轻了开发者的工作,而 PTX 则作为中间层,连接了高级语言与底层硬件。

此外,这种两步编译方式也使得 CUDA 程序具备跨架构的兼容性和可移植性。

反过来,像 DeepSeek 这样直接编写 PTX 代码的方式,不仅复杂,也难以在不同型号的 GPU 上移植。

一些从业者指出,专门针对 H100 优化的代码在其他型号上应用可能会效果大打折扣,甚至无法正常运行。

因此,从 PTX 级别进行优化并不意味着完全脱离 CUDA 生态,不过确实表明他们在优化其他 GPU 上具备了能力。

实际上,我们可以看到 DeepSeek 已与 AMD、华为等团队紧密合作,迅速提供对其他硬件生态的支持。

还有一件事

人们也提出,若 AI 擅长编写汇编语言,则可能成为 AI 自我改进的另一个方向。

我们无法确定 DeepSeek 是否在内部利用了 AI 辅助编写了 PTX 代码——不过我们确实亲眼见证了 DeepSeek-R1 编写的代码极大提升了大型模型推理框架的运算速度

Llama.cpp 项目中的一个新 PR 请求,利用 SIMD 指令(允许同时处理多份数据)显著提升 WebAssembly 特定点积函数的执行速度,提交者表示:

本 PR 中 99% 的代码都是由 DeepSeek-R1 编写的。我所做的仅是开发测试和编写提示(经过了一些尝试和错误)。

是的,如果这个 PR 旨在证明大模型现在能够编写高质量的底层代码,甚至能自我优化代码。

llama.cpp 项目的创建者检查了这段代码后表示“超出预期的效果”。

参考链接:

  • [1]https://www.tomshardware.com/tech-industry/artificial-intelligence/deepseeks-ai-breakthrough-bypasses-industry-standard-cuda-uses-assembly-like-ptx-programming-instead

  • [2]https://x.com/bookwormengr/status/1883355712191123666

  • [3]https://tinkerd.net/blog/machine-learning/cuda-basics/

  • [4]https://www.amd.com/en/developer/resources/technical-articles/amd-instinct-gpus-power-deepseek-v3-revolutionizing-ai-development-with-sglang.html

  • [5]https://x.com/ggerganov/status/1883888097185927311

广告声明:文中涉及的对外链接(包括超链接、二维码、口令等),提供额外信息以节省时间,仅供参考。

声明

1.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源;2.本站的原创文章,请转载时务必注明文章作者和来源,不尊重原创的行为我们将追究责任;3.作者投稿可能会经我们编辑修改或补充。

搜索
排行榜
关注我们

扫一扫关注我们,了解最新精彩内容