科大讯飞联合华为,率先实现国产算力大规模跨节点专家并行集群推理
根据IT之家在3月11日的报道,科大讯飞研究院正式宣布,科大讯飞与华为在国产算力领域取得了显著的成就。双方组成的联合团队在国产算力集群上率先突破了MoE模型的大规模跨节点专家并行集群推理,成为继DeepSeek公布其MoE模型训练推理方案后的重要进展,开启了基于国产算力的新解决方案。
该联合团队通过硬件和软件的深入协作,在多个关键技术层面深挖硬件能力,实现了昇腾集群的验证与部署。在算子融合技术方面,团队在MLA预处理阶段利用Vector与Cube异构计算单元进行并行流水作业,将多个小算子融合为原子级计算单元,从而消除小算子下发的开销,MLA前处理时延降低超过50%,显著提升了性能。
据科大讯飞研究院介绍,团队在混合并行策略和通信计算并行优化上构建了TP(张量并行)与EP(专家并行)的混合模式:在MLA计算层利用机内TP并行,充分发挥机内高速互联的优势,降低跨机通信损耗;同时创新MoE专家分层调度,将64卡均衡分配到专家计算节点,定制AllToAll通信协议,使专家数据交换效率提升40%。此外,团队搭建了跨机/机内双层通信架构,通过分层优化将跨机流量降低60%;还研发了路由专家负载均衡算法,使卡间负载差异小于10%,集群吞吐能力提升30%。
通过创新的分布式架构和算法的协同优化,联合团队在国产算力上实现了显著的性能提升。单卡静态内存占用减少至双机部署的1/4,效率提高75%,专家计算密度增加至原来的4倍,推理吞吐量提升3.2倍,端到端延迟降低50%。
科大讯飞研究院表示,这种突破性的解决方案也将用于讯飞星火深度推理模型的训练加速,预计训练时推理效率将提升200%。此外,基于该方案的推理引擎已在国产算力上实现了DeepSeek V3和R1的高效推理。
据IT之家从科大讯飞的公告获悉,科大讯飞深度推理大模型星火X1已完成升级,在模型参数数量上比同行少一个数量级的情况下,星火X1的数学能力全面对标DeepSeek R1和OpenAI o1,并在中文数学任务中“均展现领先优势”。
广告声明:文中包含的跳转链接(诸如超链接、二维码、口令等)旨在提供更多信息,帮助节省选择时间,结果仅供参考。
1.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源;2.本站的原创文章,请转载时务必注明文章作者和来源,不尊重原创的行为我们将追究责任;3.作者投稿可能会经我们编辑修改或补充。