DeepSeek 使用了比 CUDA 更底层的 Nvidia PTX 进行编程DeepSeek 高效突破是通过实施大量细粒度优化和使用 Nvidia 的汇编式语言 PTX (并行线程执行) 编程而不是标准的 CUDA 实现的

05:01 · Jan 29, 2025 · Wed

DeepSeek 使用了比 CUDA 更底层的 Nvidia PTX 进行编程

DeepSeek 高效突破是通过实施大量细粒度优化和使用 Nvidia 的汇编式语言 PTX (并行线程执行) 编程而不是标准的 CUDA 实现的。PTX 是 Nvidia 为其 GPU 设计的中间指令集架构，位于高级 GPU 编程语言 (如 CUDA C/C++ 或其他语言前端) 和低级机器代码 (流式汇编或 SASS) 之间。它将 GPU 公开为数据并行计算设备，因此允许细粒度优化，例如寄存器分配和线程/warp 级别调整，这是 CUDA C/C++ 和其他语言前端无法实现的。

在训练其 V3 模型时，DeepSeek 重新配置了 H800 GPU：在 132 个流式多处理器中，它分配了 20 个用于服务器间通信，可能用于压缩和解压数据，以克服处理器的连接限制并加快速度。为了最大限度地提高性能，DeepSeek 还实现了高级管道算法，可能是通过进行超精细的线程/warp 级别调整。这些修改远远超出了标准 CUDA 级开发，维护起来非常困难，这种级别的优化反映了 DeepSeek 工程师的卓越技能。

—— Tom's Hardware