DeepSeek 开源进度 2/5：首个用于 MoE 模型训练和推理的 EP 通信库 DeepEP

xxn 阅读：20186 2025-02-25 12:03:22 评论：0

感谢来自IT之家社区的用户浪花庆山粉提供的线索！

IT之家于2月25日报道，DeepSeek的“开源周”活动迎来了第二天，今日推出了首个开源的EP通信库，专为MoE模型的训练及推理而设计——DeepEP。

IT之家提供开源地址：https://github.com/deepseek-ai/DeepEP

官方声明此库具备以下特性：

优化的全到全通信模式
支持节点间及节点内通信，兼容NVLink和RDMA技术
具备高吞吐量内核，提升训练和推理的填充效率
具备低延迟内核，优化推理解码的过程
全面支持FP8数据格式调度
灵活的GPU资源管理，支持计算与通信的重叠执行

以下是详细介绍的要点：

DeepEP是专为混合专家（MoE）和专家并行（EP）设计的高效通信库，提供高吞吐量及低延迟的全到全GPU内核，常用于MoE的分发及合并操作。该库支持低精度计算，包括FP8。
为配合DeepSeek-V3论文中提出的组限制门控算法，DeepEP提供了针对不对称带宽转发优化的内核，例如将数据从NVLink域转发到RDMA域。这些优化内核能够有效提供高吞吐量，适用于训练和推理的预填充任务，同时支持对SM（流式多处理器）数量的控制。
对于延迟敏感的推理解码任务，DeepEP提供了一套低延迟内核，使用纯RDMA技术以最大限度降低延迟。此外，该库采用了一种基于Hook的方法来实现计算与通信的重叠，未占用任何SM资源。

系统需求：

Hopper GPU（未来可能支持更多架构或设备）
Python 3.8及以上版本
CUDA 12.3及以上版本
PyTorch 2.1及以上版本
使用NVLink进行节点间通信
基于RDMA网络的节点间通信

广告声明：文中包含的外部链接（包括但不限于超链接、二维码、口令等），旨在提供更丰富的信息，仅供参考。

声明

1.本站遵循行业规范，任何转载的稿件都会明确标注作者和来源；2.本站的原创文章，请转载时务必注明文章作者和来源，不尊重原创的行为我们将追究责任；3.作者投稿可能会经我们编辑修改或补充。