DeepSeek 代码库开源进度 1/5:为 Hopper GPU 优化的高效 MLA 解码内核 FlashMLA

xxn 阅读:90125 2025-02-24 10:00:10 评论:0

IT之家 2 月 24 日报道,DeepSeek 宣布开启“开源周”,首个推出的开源项目为 FlashMLA—— 一种专为 Hopper GPU 优化而设计的高效 MLA 解码内核,主要用于处理可变长度序列。FlashMLA 的开发灵感源于 FlashAttention 2&3 及 cutlass 项目。

IT之家提供的开源链接:https://github.com/deepseek-ai/FlashMLA

官方对此的说明如下:

需求:

  • 支持 Hopper GPU

  • 需要 CUDA 12.3 或更高版本

  • 兼容 PyTorch 2.0 及更新版本

安装方法:

python setup.py install

基准测试:

python tests/test_flash_mla.py

使用 CUDA 12.6 和 H800 SXM5,在内存受限的情况下能够达到 3000 GB/s 的带宽,在计算受限的环境中则可实现 580 TFLOPS 的计算能力。

使用示例:

from flash_mla import get_mla_metadata flash_mla_with_kvcachetile_scheduler_metadata num_splits = get_mla_metadata(cache_seqlens s_q * h_q // h_kv h_kv)for i in range(num_layers):        o_i lse_i = flash_mla_with_kvcache(        q_i kvcache_i block_table cache_seqlens dv,        tile_scheduler_metadata num_splits causal=True,    )

参考文献:

@misc{flashmla2025,      title={FlashMLA: Efficient MLA decoding kernel},       author={Jiashi Li},      year={2025},      publisher = {GitHub},      howpublished = {\url{https://github.com/deepseek-ai/FlashMLA}},}

广告声明:文中所含外部链接(包括超链接、二维码、口令等形式)旨在提供更多信息,帮助用户节省筛选时间,仅供参考。

声明

1.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源;2.本站的原创文章,请转载时务必注明文章作者和来源,不尊重原创的行为我们将追究责任;3.作者投稿可能会经我们编辑修改或补充。

搜索
排行榜
关注我们

扫一扫关注我们,了解最新精彩内容