近日,华为技术有限公司携手北京大学高性能计算校级公共平台,正式揭晓了DeepSeek全栈开源推理方案,这一发布标志着双方在人工智能推理领域的深度合作迈出了重要一步。
DeepSeek方案依托北京大学自主研发的SCOW算力平台系统与鹤思调度系统,并巧妙融合了DeepSeek、openEuler、MindSpore及vLLM/RAY等多个开源社区组件。该方案专为华为昇腾系列硬件设计,旨在实现高效推理,并支持大规模算力集群的训推一体化部署。尤为所有开发者均可自由获取源码,并根据实际需求进行二次开发,其性能表现已接近市面上的闭源方案。
相较于传统的闭源方案,DeepSeek在硬件配置上展现出了显著优势。以DeepSeek-R1-w8a8配置为例,在2台Atlas 800I A2服务器的支持下,输入长度为4096时,输出长度可达1024,系统吞吐量高达1198,而在用户并发测试中,同样达到了128的并发处理能力。
目前,DeepSeek方案已成功部署于北京大学未名卓越一号集群。该集群由北京大学计算中心负责运维,是北大鲲鹏昇腾科教创新卓越中心的重要算力支撑。作为国内首个基于高校自研基础软件的国产智算平台,未名卓越一号集群自2024年11月18日上线以来,已集成了20台昇腾AI服务器与10台鲲鹏通用服务器,其AI算力规模达到了30.64PFlops(半精度),为科研与教学提供了强大的算力保障。
DeepSeek推理方案的核心优势在于其全栈开源组件的构建与深度优化。在openEuler开源操作系统层面,方案进行了全面优化,通过异构调度负载感知MoE冷热专家,实现了更精细的任务调度。同时,方案还采用了异构融合技术,有效管理内存,大幅减少了系统内存碎片。毕昇编译器的进一步优化,更是显著减少了算子下发耗时,从而提升了推理的整体性能。
上图展示了算力集群全栈开源推理方案的架构图,从中不难看出,DeepSeek方案在设计与实施上均体现出了高度的专业性与创新性。此次合作不仅展示了华为与北京大学在人工智能领域的深厚积累,更为国内AI推理技术的发展注入了新的活力。