DeepSeek 发布“开源周”首个项目为针对 Hopper GPU 优化的高效 MLA 解码内核DeepSeek 今天开始了连续五天的“开源周”，并发布了首个开源代码库 FlashMLA

02:46 · Feb 24, 2025 · Mon

DeepSeek 发布“开源周”首个项目为针对 Hopper GPU 优化的高效 MLA 解码内核

DeepSeek 今天开始了连续五天的“开源周”，并发布了首个开源代码库 FlashMLA。该代码库是针对英伟达 Hopper GPU 优化的高效多层注意力 (MLA) 解码内核。FlashMLA 的灵感源自 FlashAttention 2&3 和 cutlass 项目，专门优化了变长序列的并行处理，支持分页式KV缓存的快速访问，通过高度优化的 CUDA 内核实现注意力计算加速。

FlashMLA 要求使用英伟达 Hopper GPU，并在 CUDA 12.3 及以上版本以及 PyTorch 2.0 及以上版本的环境中运行。在 CUDA 12.6 环境下，H800 SXM5 内存受限配置下可实现 3000 GB/s 的带宽，计算受限配置下则可达 580 TFLOPS 的算力，展现出卓越的计算效率。

—— DeepSeek