在近期科技圈的一连串动作中,DeepSeek无疑成为了最耀眼的明星。这家创新企业不仅在算法领域取得了突破性进展,还以前所未有的姿态,推动了整个大模型行业的开源化进程。
2月24日和25日,DeepSeek相继宣布了两项重大开源举措:FlashMLA代码和DeepEP通信库。这些开源成果,不仅彰显了DeepSeek将大模型技术全面开放的决心,更为整个行业带来了前所未有的机遇。
DeepSeek-R1模型的诞生与开源,如同一道曙光,照亮了因算力瓶颈而陷入困境的大模型行业。与众多大厂不同,DeepSeek没有盲目追求算力的叠加,而是独辟蹊径,通过算法的创新与优化,成功解决了大模型行业的算力焦虑问题。这一创新路径,无疑为整个行业提供了新的思考方向。
DeepSeek的开源行动,不仅激发了行业的热情,更打破了国内原有算力产业的格局。AI服务器出货激增,能够承接DeepSeek大模型相关应用的一体机更是火爆异常。各大厂商纷纷布局,整个市场呈现出百舸争流的态势。
就在人们以为DeepSeek的开源热潮已经告一段落之际,2月21日,DeepSeek宣布启动“Open Source Week”,计划在一周内开源5个代码库。这一消息再次点燃了行业的期待。
2月24日,DeepSeek如约开源了FlashMLA代码。这是一个专为MoE(Mixture of Experts)训练加速设计的框架,其核心创新在于通过低秩矩阵压缩KV缓存,显著减少了内存占用与计算开销,支持千亿参数模型的高效训练。浪潮信息相关负责人表示,FlashMLA算法在保持计算精度的同时,大幅降低了推理时的KV cache占用,从而提升了推理效率。
据悉,FlashMLA专为英伟达Hopper GPU(如H800)设计,通过优化可变长度序列处理,实现了接近理论峰值的极限性能。这意味着,通过FlashMLA,用户可以将H800的性能发挥到极致,甚至达到H100的性能水平。这一突破不仅提升了实时生成任务的效率,还降低了大模型部署成本,进一步推动了大模型在各行各业的落地。
另一方面,FlashMLA的开源为国产GPU兼容CUDA生态提供了宝贵参考。神州数码副总裁、CTO李刚表示,DeepSeek的开源策略降低了开发者对封闭生态的依赖,加速了RISC-V、ARM等架构的AI加速芯片发展,推动了硬件生态向多厂商竞争格局的转变。同时,也促进了大模型在国产GPU芯片上的规模化使用。
紧接着,2月25日,DeepSeek又宣布了DeepEP通信库的开源。这是第一个用于MoE模型训练和推理的开源EP通信库,支持低精度运算,包括FP8格式。DeepEP通过优化All-to-All通信、支持NVLink/RDMA协议,实现了节点内外的高效数据传输,降低了训练与推理的延迟。其灵活的GPU资源调度策略,使得通信过程中可以并行执行计算任务,显著提升了整体效率。
DeepSeek在算法方面的创新与优化,打破了长久以来大模型算力的瓶颈。通过混合专家架构(MoE)与FP8训练技术,DeepSeek显著减少了模型对高算力硬件的依赖。R1模型仅需2048块GPU即可完成训练,纯算力训练成本降至500多万美元,远低于传统大模型的数亿美元投入。这一突破不仅推动了硬件行业向高能效、低成本方向转型,还为更多企业提供了应用大模型技术的可能。
DeepSeek的技术突破,不仅体现在性能指标上,更通过效率与成本的平衡,推动了AI技术的普惠化。业内多位专家对此给予了高度评价。李刚认为,DeepSeek在算法架构方面的创新是从“暴力堆参数”到“智能优化”的范式转变。赵鸿冰则表示,算力行业正从“规模驱动”转向“效率驱动”,DeepSeek的出现将吸引更多参与者,形成多元化竞争格局。
据IDC数据显示,全球人工智能服务器市场规模将持续增长。2024年市场规模为1251亿美元,预计到2028年将达到2227亿美元。其中,生成式人工智能服务器占比将不断提升。在中国市场,IDC预测2023-2028年间,智能算力的年复合增长率将达到46.2%,远高于通用算力的18.8%。这一趋势表明,用户对算力的需求将主要集中在智能算力方面。
DeepSeek的出现,无疑为算力市场带来了新的变革。在算力需求层面,DeepSeek降低了大模型的应用开发成本,让更多中小用户能够接触到这项技术。随着需求的下沉,算力市场的整体规模将进一步扩大。同时,DeepSeek推动了算力基础设施的发展,各大厂商纷纷推出相关的一体机产品,满足了市场对高效、易用服务器的需求。
不仅如此,DeepSeek还带动了算力服务模式的变革。赵鸿冰表示,算力服务模式正在从传统IaaS向MaaS升级。云厂商通过预置DeepSeek优化模型提供端到端解决方案,降低了客户算力采购的复杂度。这一趋势将更面向行业落地,推动大模型技术在各行各业的广泛应用。