滚动资讯

当前位置：首页 > 资讯 > 业界动态 > 正文内容

DeepSeek开源新利器！FP8训推性能大飞跃，GPU潜能极致释放

时间：2025-02-26 11:12:33 来源：ITBEAR编辑：快讯团队 发表评论无障碍通道

在深度学习领域，又迎来了一次技术革新。DeepSeek开源周的第三波发布——DeepGEMM，一个专为密集和混合专家（MoE）模型设计的FP8通用矩阵乘法（GEMM）库，正式亮相。这一创新成果，旨在为V3/R1的训练和推理提供强大动力。

DeepGEMM的发布引起了广泛关注，其性能在Hopper GPU上高达1350+ FP8 TFLOPS，且设计简洁，没有过多的依赖。据悉，该库在安装过程中无需预编译，而是采用完全即时（JIT）编译的方式，使得安装过程如教程般顺畅。其极简的设计理念，核心逻辑仅约300行代码，却能在大多数矩阵大小上超越专家调整的kernels，展现出卓越的性能。

DeepGEMM不仅支持普通的密集布局，还兼容两种MoE布局，为不同类型的模型提供了全面的支持。这一特性使得DeepGEMM在深度学习领域具有广泛的应用前景。有眼尖的网友在项目贡献者名单中发现了“Liang”的名字，并猜测这可能是DeepSeek的创始人梁文锋。这一猜测在DeepSeek的推文评论区引发了热烈讨论。

据DeepSeek公布的数据显示，DeepGEMM在普通GEMM（密集模型）中，矩阵运算的提速可达2.7倍；在分组GEMM（MoE模型）中，连续性布局和掩码布局下的提速也能达到1.1倍至1.2倍。这一显著的性能提升，得益于DeepGEMM专为干净、高效的FP8 GEMM而设计的理念，以及细粒度扩展功能的实现。

DeepGEMM采用了CUDA核心两级累积技术，解决了不精确的FP8 Tensor Core累积问题。尽管它借鉴了CUTLASS和CuTe的一些概念，但避免了对其模板或代数的过度依赖，使得库的设计更加简洁明了。这一特性也使得DeepGEMM成为学习Hopper FP8矩阵乘法和优化技术的宝贵资源。

DeepGEMM的发布，在DeepSeek的推文评论区收获了众多好评。网友们纷纷夸赞新代码库的出色性能和DeepSeek工程师的辛勤付出。DeepSeek也分享了清晰的上手指南，帮助开发者快速上手DeepGEMM。该指南要求使用Hopper架构的GPU，支持sm_90a，以及Python 3.8、CUDA 12.3、PyTorch 2.1等环境配置。DeepSeek强烈推荐使用CUDA 12.8或更高版本以获得最佳性能。

DeepGEMM的代码库不仅包含了GEMM kernel，还提供了一些实用函数和环境变量，方便开发者进行二次开发和优化。DeepSeek还详细解释了DeepGEMM的设计原理和优化细节，如利用Hopper TMA功能实现更快的数据移动、针对不同warpgroups定制的寄存器计数控制等。这些优化措施共同提升了DeepGEMM的性能，使其在深度学习领域具有更强的竞争力。

举报 0 收藏 0 打赏 0评论 0

更多>同类资讯

超算互联网助力中国科大“机器化学家”智能飞跃，科研效率大提升

04-18

华为云CM384算力集群：性能跃升，已超英伟达旗舰方案？

04-18

京东超市“18天鲜”牛奶服务上线，超期直接免单，你尝鲜了吗？

04-18

京东图书423狂欢盛典：海量好书直降，全民阅读新体验等你来解锁！

04-18

中国稀土出口管制下，西数微软联手探索废旧硬盘稀土回收新路径

04-18

TikTok掀“中国工厂热”，阿里国际站霸榜全球120国电商APP下载榜！

04-18

关税波动下的坚实后盾：中国石化长城润滑油如何护航产业安全？

04-18

金士顿FURY Renegade G5 SSD发布：首款消费级PCIe 5.0，顺序读写破14GB/s

04-18

美企联手启动机械硬盘稀土回收，助力环保与供应链强化

04-18

马航考虑引进中国商用飞机，C909与C919成潜在选项！

04-18

海外社媒营销新挑战：流量昂贵下如何高效“种草”？

04-18

京东外卖全职骑手新亮相，工服上直接标注“全职员工”身份

近日有网友在街头发现，京东外卖的骑手身穿工服，衣服上还戴了标牌，标注“全职员工”四个字，且有员工编号。…

04-18

网红“猫一杯”服务合同纠纷开庭，其公司杭州瑟曼被指下落不明

网红“猫一杯”（本名徐某艺）及其背后的杭州瑟曼网络科技有限公司，因服务合同纠纷被上海黑芒营销策划有限公司起诉，案件于4月18日在杭州市滨江区人民法院开庭。据人民法院公告网刊登的公告显示，杭州市滨江区人民法院…

04-18

徐里里微博遭禁言15天，因何与小米公关部总经理起争执？

博主万能的大熊透露，“徐里里老师已经被禁言了，我就劝他胳膊拗不过大腿，他非要试试……傻了吧……”还贴出了禁言15天的截图。在评论区中有网友表示“截图哪儿来的，微信发你的？”博主表示了肯定。此前，徐里里和…

04-18

祁连山自驾盛宴，4月18日“北驾祁连·9号公路”百车启航！

04-18

点击查看更多 +

全站最新

宝马中国CEO高翔上海车展前瞻：新世代战略与安全坚守并重

雷克萨斯独资建厂，能否在新能源赛道上重塑辉煌？

海陆空全能王！比亚迪海狮07DM-i智驾版预售仅18.98万起

长安Lumin 2025款双车升级，A00纯电市场迎来新标杆！

一加13T小屏新体验：李杰力赞单手操作无压力

零刻ME mini迷你机首发，搭载英特尔N200，六盘位存储仅售1295元！

热门内容

本栏最新

华为云CM384算力集群：性能跃升，已超英伟达旗舰方案？

京东超市“18天鲜”牛奶服务上线，超期直接免单，你尝鲜了吗？

京东图书423狂欢盛典：海量好书直降，全民阅读新体验等你来解锁！

中国稀土出口管制下，西数微软联手探索废旧硬盘稀土回收新路径

TikTok掀“中国工厂热”，阿里国际站霸榜全球120国电商APP下载榜！

关税波动下的坚实后盾：中国石化长城润滑油如何护航产业安全？

本网站LOGO小熊标志受版权保护，版权登记号：鲁作登字-2015-F-025467，未经ITBEAR官方许可，严禁使用。
声明：本网站是公益性科普网站，为网友提供科技类资讯内容，无障碍技术由太阳湾捐增，为阅读障碍用户提供内容听读服务。如本站内容侵犯了您的权利，请通知我们及时删除。
中国（山东）自由贸易试验区鲁ICP备11015305号-1 商业合作入口
Copyright © 小熊科技资讯 2007-2024 ITBEAR.COM.CN All rights reserved.