DeepSeek 开源进度 2/5:首个用于 MoE 模型训练和推理的 EP 通信库 DeepEP
IT之家于2月25日报道,DeepSeek的“开源周”活动迎来了第二天,今日推出了首个开源的EP通信库,专为MoE模型的训练及推理而设计——DeepEP。
IT之家提供开源地址:https://github.com/deepseek-ai/DeepEP
官方声明此库具备以下特性:
优化的全到全通信模式
支持节点间及节点内通信,兼容NVLink和RDMA技术
具备高吞吐量内核,提升训练和推理的填充效率
具备低延迟内核,优化推理解码的过程
全面支持FP8数据格式调度
灵活的GPU资源管理,支持计算与通信的重叠执行
以下是详细介绍的要点:
DeepEP是专为混合专家(MoE)和专家并行(EP)设计的高效通信库,提供高吞吐量及低延迟的全到全GPU内核,常用于MoE的分发及合并操作。该库支持低精度计算,包括FP8。
为配合DeepSeek-V3论文中提出的组限制门控算法,DeepEP提供了针对不对称带宽转发优化的内核,例如将数据从NVLink域转发到RDMA域。这些优化内核能够有效提供高吞吐量,适用于训练和推理的预填充任务,同时支持对SM(流式多处理器)数量的控制。
对于延迟敏感的推理解码任务,DeepEP提供了一套低延迟内核,使用纯RDMA技术以最大限度降低延迟。此外,该库采用了一种基于Hook的方法来实现计算与通信的重叠,未占用任何SM资源。
系统需求:
Hopper GPU(未来可能支持更多架构或设备)
Python 3.8及以上版本
CUDA 12.3及以上版本
PyTorch 2.1及以上版本
使用NVLink进行节点间通信
基于RDMA网络的节点间通信
广告声明:文中包含的外部链接(包括但不限于超链接、二维码、口令等),旨在提供更丰富的信息,仅供参考。
1.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源;2.本站的原创文章,请转载时务必注明文章作者和来源,不尊重原创的行为我们将追究责任;3.作者投稿可能会经我们编辑修改或补充。