ITBear旗下自媒体矩阵:

DeepSeek再开源力作:FP8 GEMM库DeepGEMM,核心逻辑仅300行!

   时间:2025-02-26 11:10:54 来源:ITBEAR编辑:快讯团队 发表评论无障碍通道

DeepSeek近日宣布启动“开源周”活动,计划逐步公开五个重要的代码库。继此前已发布的FlashMLA和DeepEP之后,DeepSeek再次推出开源项目——DeepGEMM。

DeepGEMM是一款专注于dense和MoE(混合专家)通用矩阵乘法(GEMM)的高效FP8 GEMM库,专为V3/R1的训练和推理任务设计。据官方介绍,在Hopper GPU上,DeepGEMM的性能峰值可达到1350+ FP8 TFLOPS,展现了其强大的计算能力。

DeepGEMM具有以下几大亮点:

首先,它的依赖项极少,设计简洁明了,如同教程一般,让用户能够轻松上手。其次,DeepGEMM实现了完全即时编译,提供了更高的灵活性和效率。尽管其核心逻辑代码仅约300行,但在多数矩阵尺寸上的性能表现却优于经过专家调优的内核,展示了其卓越的性能优化能力。

DeepGEMM不仅支持dense布局,还兼容两种MoE布局,这一特性使其在处理复杂计算任务时更具优势。通过这一开源项目,DeepSeek再次展示了其在高性能计算领域的深厚积累和创新能力。

举报 0 收藏 0 打赏 0评论 0
 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  RSS订阅  |  开放转载  |  滚动资讯  |  争议稿件处理  |  English Version