Skip to main content

DeepSeek 发布“开源周”首个项目为针对 Hopper GPU 优化的高效 MLA 解码内核DeepSeek 今天开始了连续五天的“开源周”,并发布了首个开源代码库 FlashMLA

  1. DeepSeek 发布“开源周”首个项目为针对 Hopper GPU 优化的高效 MLA 解码内核

    DeepSeek 今天开始了连续五天的“开源周”,并发布了首个开源代码库 FlashMLA。该代码库是针对英伟达 Hopper GPU 优化的高效多层注意力 (MLA) 解码内核。FlashMLA 的灵感源自 FlashAttention 2&3 和 cutlass 项目,专门优化了变长序列的并行处理,支持分页式KV缓存的快速访问,通过高度优化的 CUDA 内核实现注意力计算加速。

    FlashMLA 要求使用英伟达 Hopper GPU,并在 CUDA 12.3 及以上版本以及 PyTorch 2.0 及以上版本的环境中运行。在 CUDA 12.6 环境下,H800 SXM5 内存受限配置下可实现 3000 GB/s 的带宽,计算受限配置下则可达 580 TFLOPS 的算力,展现出卓越的计算效率。

    —— DeepSeek