摩尔线程支持 DeepSeek 开源周“全家桶”
IT之家于3月2日报道,DeepSeek开源周圆满结束。摩尔线程智能科技(北京)股份有限公司在昨日的公告中提到,短期内对DeepSeek各大开源项目实现了全面的支持,这些项目包括FlashMLA、DeepEP、DeepGEMM、DualPipe及Fire-Flyer文件系统(3FS)。
以下是摩尔线程为DeepSeek开源周提供的“全家桶”代码集合:
FlashMLA
FlashMLA是一个高效的多头潜在注意力(MLA)推理内核开源项目,旨在提升MLA机制的计算速度,非常适合DeepSeek系列模型(如DeepSeek-V2、V3和R1)。
摩尔线程依托全新的MUSA计算能力3.1架构,提供了原生的FP8计算功能,并升级了高性能线性代数模板库MUTLASS,以便快速支持FlashMLA。通过MUTLASS 0.2.0,摩尔线程推出了开源库MT-FlashMLA,支持DeepSeek FlashMLA的兼容部署。
MT-FlashMLA开源地址:
MUTLASS FlashAttention3地址:
DeepEP
DeepEP是一个为混合专家(MoE)模型的训练和推理而设计的开源EP(专家并行)通信库,特别适合大规模模型训练,尤其是在需要EP的集群环境中。它通过优化通信通道的使用率,大幅提升了训练效率。摩尔线程以MUSA Compute Capability 3.1全功能GPU为基础,迅速实现对DeepEP的适配,支持以下特点:
MT-DeepEP开源地址:
优化的All-to-All通信,支持分发与合并
支持MTLink与GPU(MUSA Compute Capability 3.1)节点间的通信
训练与推理预热阶段的高吞吐量计算核心
推理解码阶段的低延迟计算核心
原生支持FP8数据分发
灵活管理GPU资源,实现计算与通信的高效重叠
DeepGEMM
DeepGEMM是支持密集矩阵与混合专家(MoE)矩阵乘法的FP8 GEMM库,为V3/R1的训练与推理提供强大动力。该开源库依托高性能通用矩阵乘法(GEMM)的C++模板库进行开发。摩尔线程基于MUTLASS在新型GPU架构上优化实现了FP8矩阵乘法,从而支持DeepGEMM相关功能。
MUTLASS FP8 GEMM地址:
DualPipe
DualPipe是DeepSeek-V3推出的双向流水线并行计算算法,制定的计算与通信在前向与后向过程中的完全重叠,显著减少了流水线操作中的延迟。在传统流水线并行的基础上,DualPipe采用双向数据流设计,使数据能双端进行处理,显著提升了资源利用效率与训练效果。
摩尔线程借助开源深度学习框架Torch-MUSA及MUSA软件栈的兼容性,有效支持DualPipe算法。MT-DualPipe可在摩尔线程的MT-Megatron框架与即将发布的MT-TransformerEngine框架中实现DeepSeek V3训练流程的完整复现。
MT-DualPipe开源地址:
Torch-MUSA开源地址:
3FS
Fire-Flyer文件系统(3FS)是利用现代SSD与RDMA网络获取全部带宽的并行文件系统,它能够充分挖掘固态硬盘的带宽潜力,使其在V3与R1的训练和推理中发挥至关重要的支持作用,从而应对AI训练与推理的挑战。
摩尔线程在短期内完成了高性能分布式文件系统3FS的构建,并开发了高效的存储插件,成功实现与夸娥智算集群的无缝集成,为AI训练、推理及科学计算等场景提供了完整的存储加速解决方案。
3FS CSI Driver地址:
广告声明:文中包含的外部链接(包括但不限于超链接、二维码、口令等形式)旨在传递更多信息,以节省用户筛选时间,具体结果仅供参考。
1.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源;2.本站的原创文章,请转载时务必注明文章作者和来源,不尊重原创的行为我们将追究责任;3.作者投稿可能会经我们编辑修改或补充。