ITBear旗下自媒体矩阵:

DeepSeek再开源!EP通信库引爆GPU性能新高度

   时间:2025-02-25 12:33:19 来源:ITBEAR编辑:快讯团队 发表评论无障碍通道

在AI领域的最新动态中,DeepSeek开源周的第二波发布引发了广泛关注。此次发布的核心是一个专为混合专家(MoE)模型和专家并行(EP)通信设计的开源库——DeepEP。该库发布后不到一小时,就在GitHub上收获了上千颗星标。

DeepEP是专为MoE架构定制的通信解决方案,提供了高吞吐量和低延迟的全对全GPU内核,业内称之为MoE调度与合并。这些内核的设计旨在充分利用现代硬件的优势,提升MoE模型的训练和推理性能。

DeepEP的亮点包括:高性能通信支持,利用NVLink和RDMA实现节点内和节点间的数据传输;FP8低精度运算支持,降低计算需求;针对延迟敏感的推理任务,提供了基于RDMA的低延迟内核;引入基于钩子的通信与计算重叠方法,避免占用流式多处理器资源;以及自适应路由和虚拟通道流量隔离,进一步提升通信效率。

为了与DeepSeek-V3论文中提出的组限制门控算法保持一致,DeepEP还优化了非对称域带宽转发的内核。这些优化内核能够在NVLink域和RDMA域之间高效传输数据,适用于训练和推理预填充任务,并支持流式多处理器数量的控制。

对于对延迟敏感的推理任务,DeepEP提供了基于RDMA的低延迟内核,最大限度地减少了推理解码的延迟。该库引入的基于钩子的通信与计算重叠方法,无需占用任何流式多处理器资源,进一步提升了整体性能。

在具体性能测试中,DeepEP展示了令人瞩目的表现。在配备NVLink和RDMA网卡的H800设备上,DeepEP在常规内核和低延迟内核测试中均取得了优异的结果。这些测试遵循了DeepSeek-V3/R1的预训练和生产环境设置,验证了DeepEP在实际应用中的高效性。

DeepEP的快速启动要求包括下载并安装NVSHMEM依赖项,以及进行必要的开发和网络配置。该库提供了详细的安装指南和网络配置步骤,以及接口和示例代码,方便开发者快速上手。

DeepSeek发布的推文在短短一小时内浏览量高达12万,评论区充满了开发者们对DeepEP的赞誉。他们纷纷表示,DeepEP在MoE模型优化方面的成就令人惊叹,对NVLink和RDMA的支持为大规模MoE模型带来了变革性的影响。甚至有开发者制作了表情包,形象地表达了他们对DeepSeek和DeepEP的认可和期待。

举报 0 收藏 0 打赏 0评论 0
 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  RSS订阅  |  开放转载  |  滚动资讯  |  争议稿件处理  |  English Version