科大讯飞联合华为，率先实现国产算力大规模跨节点专家并行集群推理

xxn 阅读：97717 2025-03-11 16:03:49 评论：0

根据IT之家在3月11日的报道，科大讯飞研究院正式宣布，科大讯飞与华为在国产算力领域取得了显著的成就。双方组成的联合团队在国产算力集群上率先突破了MoE模型的大规模跨节点专家并行集群推理，成为继DeepSeek公布其MoE模型训练推理方案后的重要进展，开启了基于国产算力的新解决方案。

该联合团队通过硬件和软件的深入协作，在多个关键技术层面深挖硬件能力，实现了昇腾集群的验证与部署。在算子融合技术方面，团队在MLA预处理阶段利用Vector与Cube异构计算单元进行并行流水作业，将多个小算子融合为原子级计算单元，从而消除小算子下发的开销，MLA前处理时延降低超过50%，显著提升了性能。

据科大讯飞研究院介绍，团队在混合并行策略和通信计算并行优化上构建了TP（张量并行）与EP（专家并行）的混合模式：在MLA计算层利用机内TP并行，充分发挥机内高速互联的优势，降低跨机通信损耗；同时创新MoE专家分层调度，将64卡均衡分配到专家计算节点，定制AllToAll通信协议，使专家数据交换效率提升40%。此外，团队搭建了跨机/机内双层通信架构，通过分层优化将跨机流量降低60%；还研发了路由专家负载均衡算法，使卡间负载差异小于10%，集群吞吐能力提升30%。

通过创新的分布式架构和算法的协同优化，联合团队在国产算力上实现了显著的性能提升。单卡静态内存占用减少至双机部署的1/4，效率提高75%，专家计算密度增加至原来的4倍，推理吞吐量提升3.2倍，端到端延迟降低50%。

科大讯飞研究院表示，这种突破性的解决方案也将用于讯飞星火深度推理模型的训练加速，预计训练时推理效率将提升200%。此外，基于该方案的推理引擎已在国产算力上实现了DeepSeek V3和R1的高效推理。

据IT之家从科大讯飞的公告获悉，科大讯飞深度推理大模型星火X1已完成升级，在模型参数数量上比同行少一个数量级的情况下，星火X1的数学能力全面对标DeepSeek R1和OpenAI o1，并在中文数学任务中“均展现领先优势”。

广告声明：文中包含的跳转链接（诸如超链接、二维码、口令等）旨在提供更多信息，帮助节省选择时间，结果仅供参考。

声明

1.本站遵循行业规范，任何转载的稿件都会明确标注作者和来源；2.本站的原创文章，请转载时务必注明文章作者和来源，不尊重原创的行为我们将追究责任；3.作者投稿可能会经我们编辑修改或补充。