DeepSeek 代码库开源进度 1/5:为 Hopper GPU 优化的高效 MLA 解码内核 FlashMLA
xxn
阅读:90125
2025-02-24 10:00:10
评论:0
IT之家 2 月 24 日报道,DeepSeek 宣布开启“开源周”,首个推出的开源项目为 FlashMLA—— 一种专为 Hopper GPU 优化而设计的高效 MLA 解码内核,主要用于处理可变长度序列。FlashMLA 的开发灵感源于 FlashAttention 2&3 及 cutlass 项目。
IT之家提供的开源链接:https://github.com/deepseek-ai/FlashMLA
官方对此的说明如下:
需求:
支持 Hopper GPU
需要 CUDA 12.3 或更高版本
兼容 PyTorch 2.0 及更新版本
安装方法:
python setup.py install
基准测试:
python tests/test_flash_mla.py
使用 CUDA 12.6 和 H800 SXM5,在内存受限的情况下能够达到 3000 GB/s 的带宽,在计算受限的环境中则可实现 580 TFLOPS 的计算能力。
使用示例:
from flash_mla import get_mla_metadata flash_mla_with_kvcachetile_scheduler_metadata num_splits = get_mla_metadata(cache_seqlens s_q * h_q // h_kv h_kv)for i in range(num_layers): o_i lse_i = flash_mla_with_kvcache( q_i kvcache_i block_table cache_seqlens dv, tile_scheduler_metadata num_splits causal=True, )
参考文献:
@misc{flashmla2025, title={FlashMLA: Efficient MLA decoding kernel}, author={Jiashi Li}, year={2025}, publisher = {GitHub}, howpublished = {\url{https://github.com/deepseek-ai/FlashMLA}},}
广告声明:文中所含外部链接(包括超链接、二维码、口令等形式)旨在提供更多信息,帮助用户节省筛选时间,仅供参考。
声明
1.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源;2.本站的原创文章,请转载时务必注明文章作者和来源,不尊重原创的行为我们将追究责任;3.作者投稿可能会经我们编辑修改或补充。