DeepSeek 代码库开源进度 1/5：为 Hopper GPU 优化的高效 MLA 解码内核 FlashMLA

xxn 阅读：90192 2025-02-24 10:00:10 评论：0

IT之家 2 月 24 日报道，DeepSeek 宣布开启“开源周”，首个推出的开源项目为 FlashMLA—— 一种专为 Hopper GPU 优化而设计的高效 MLA 解码内核，主要用于处理可变长度序列。FlashMLA 的开发灵感源于 FlashAttention 2&3 及 cutlass 项目。

IT之家提供的开源链接：https://github.com/deepseek-ai/FlashMLA

官方对此的说明如下：

需求：

支持 Hopper GPU
需要 CUDA 12.3 或更高版本
兼容 PyTorch 2.0 及更新版本

安装方法：

python setup.py install

基准测试：

python tests/test_flash_mla.py

使用 CUDA 12.6 和 H800 SXM5，在内存受限的情况下能够达到 3000 GB/s 的带宽，在计算受限的环境中则可实现 580 TFLOPS 的计算能力。

使用示例：

from flash_mla import get_mla_metadata flash_mla_with_kvcachetile_scheduler_metadata num_splits = get_mla_metadata(cache_seqlens s_q * h_q // h_kv h_kv)for i in range(num_layers):        o_i lse_i = flash_mla_with_kvcache(        q_i kvcache_i block_table cache_seqlens dv,        tile_scheduler_metadata num_splits causal=True,    )

参考文献：

@misc{flashmla2025,      title={FlashMLA: Efficient MLA decoding kernel},       author={Jiashi Li},      year={2025},      publisher = {GitHub},      howpublished = {\url{https://github.com/deepseek-ai/FlashMLA}},}

广告声明：文中所含外部链接（包括超链接、二维码、口令等形式）旨在提供更多信息，帮助用户节省筛选时间，仅供参考。

声明

1.本站遵循行业规范，任何转载的稿件都会明确标注作者和来源；2.本站的原创文章，请转载时务必注明文章作者和来源，不尊重原创的行为我们将追究责任；3.作者投稿可能会经我们编辑修改或补充。