近日,DeepSeek宣布启动“开源周”活动,并陆续释放了三个重要的代码库资源。国产GPU领域的佼佼者摩尔线程迅速响应,成功完成了对FlashMLA和DeepGEMM两大开源项目的适配工作。
摩尔线程此番适配的GPU产品,基于其自主研发的MUSA Compute Capability 3.1计算架构。这一架构不仅提供了原生的FP8精度计算能力,还对高性能线性代数模板库MUTLASS进行了全面升级,从而快速支持了FlashMLA的应用。
不仅如此,摩尔线程还充分利用了MUTLASS的优势,在新一代GPU架构上实现了FP8矩阵乘法的优化。这一成果使得摩尔线程的GPU能够完美支持DeepGEMM的相关功能,进一步提升了其在大规模模型训练和推理方面的性能。
FlashMLA是一个专注于加速MLA推理的内核开源项目,特别适用于DeepSeek系列模型,如DeepSeek-V2、V3和R1等。而DeepGEMM则是一个专为密集矩阵与混合专家(MoE)矩阵乘法设计的FP8 GEMM库,能够为V3/R1的训练与推理提供强大的计算支持。
这两个开源项目均基于高性能通用矩阵乘法(GEMM)的C++模板库进行开发,具有极高的灵活性和可扩展性。摩尔线程能够快速适配这些项目,得益于其GPU架构的创新设计和MUTLASS库的强大支持。
摩尔线程的新一代GPU不仅具备全新的Tensor计算引擎和数据搬运引擎,还提供了原生FP8计算能力。这使得摩尔线程的GPU在处理前沿算法时,能够保持足够高的累加精度,无需额外的二次精度修正。
MUTLASS 0.2.0版本的发布,更是为摩尔线程的开源生态注入了新的活力。借助这一版本,摩尔线程推出了MT-FlashMLA开源仓库,实现了对DeepSeek FlashMLA的快速兼容部署。同时,MUTLASS还提供了一个全新的参考实现,充分借鉴了FlashAttention3的先进算法思想,为摩尔线程GPU设计了高效的计算流水线。
这一计算流水线的设计,有效隐藏了数据搬运的延迟和Softmax计算的开销,充分发挥了摩尔线程MUSA Compute Capability 3.1全功能GPU的Tensor计算效率。这无疑为摩尔线程在AI计算领域的竞争力注入了强劲的动力。
对于开发者而言,摩尔线程的开源资源无疑是一笔宝贵的财富。他们可以通过访问以下链接,获取MT-FlashMLA和MUTLASS的相关资源:
MT-FlashMLA开源地址:https://github.com/MooreThreads/MT-flashMLA
MUTLASS FlashAttention3地址:https://github.com/MooreThreads/mutlass/tree/main/experimental/mp31_flash_attention_fwd