DeepSeek 开源进度 2/5:首个用于 MoE 模型训练和推理的 EP 通信库 DeepEP

xxn 阅读:20186 2025-02-25 12:03:22 评论:0
感谢来自IT之家社区的用户 浪花庆山粉 提供的线索!

IT之家于2月25日报道,DeepSeek的“开源周”活动迎来了第二天,今日推出了首个开源的EP通信库,专为MoE模型的训练及推理而设计——DeepEP

IT之家提供开源地址:https://github.com/deepseek-ai/DeepEP

官方声明此库具备以下特性:

  • 优化的全到全通信模式

  • 支持节点间及节点内通信,兼容NVLink和RDMA技术

  • 具备高吞吐量内核,提升训练和推理的填充效率

  • 具备低延迟内核,优化推理解码的过程

  • 全面支持FP8数据格式调度

  • 灵活的GPU资源管理,支持计算与通信的重叠执行

以下是详细介绍的要点:

DeepEP是专为混合专家(MoE)和专家并行(EP)设计的高效通信库,提供高吞吐量及低延迟的全到全GPU内核,常用于MoE的分发及合并操作。该库支持低精度计算,包括FP8。

为配合DeepSeek-V3论文中提出的组限制门控算法,DeepEP提供了针对不对称带宽转发优化的内核,例如将数据从NVLink域转发到RDMA域。这些优化内核能够有效提供高吞吐量,适用于训练和推理的预填充任务,同时支持对SM(流式多处理器)数量的控制。

对于延迟敏感的推理解码任务,DeepEP提供了一套低延迟内核,使用纯RDMA技术以最大限度降低延迟。此外,该库采用了一种基于Hook的方法来实现计算与通信的重叠,未占用任何SM资源。

系统需求:

  • Hopper GPU(未来可能支持更多架构或设备)

  • Python 3.8及以上版本

  • CUDA 12.3及以上版本

  • PyTorch 2.1及以上版本

  • 使用NVLink进行节点间通信

  • 基于RDMA网络的节点间通信

广告声明:文中包含的外部链接(包括但不限于超链接、二维码、口令等),旨在提供更丰富的信息,仅供参考。

声明

1.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源;2.本站的原创文章,请转载时务必注明文章作者和来源,不尊重原创的行为我们将追究责任;3.作者投稿可能会经我们编辑修改或补充。

搜索
排行榜
关注我们

扫一扫关注我们,了解最新精彩内容