DeepSeek近日宣布启动“开源周”活动,计划逐步公开五个重要的代码库。继此前已发布的FlashMLA和DeepEP之后,DeepSeek再次推出开源项目——DeepGEMM。
DeepGEMM是一款专注于dense和MoE(混合专家)通用矩阵乘法(GEMM)的高效FP8 GEMM库,专为V3/R1的训练和推理任务设计。据官方介绍,在Hopper GPU上,DeepGEMM的性能峰值可达到1350+ FP8 TFLOPS,展现了其强大的计算能力。
DeepGEMM具有以下几大亮点:
首先,它的依赖项极少,设计简洁明了,如同教程一般,让用户能够轻松上手。其次,DeepGEMM实现了完全即时编译,提供了更高的灵活性和效率。尽管其核心逻辑代码仅约300行,但在多数矩阵尺寸上的性能表现却优于经过专家调优的内核,展示了其卓越的性能优化能力。
DeepGEMM不仅支持dense布局,还兼容两种MoE布局,这一特性使其在处理复杂计算任务时更具优势。通过这一开源项目,DeepSeek再次展示了其在高性能计算领域的深厚积累和创新能力。