浪潮信息近日震撼发布元脑R1推理服务器,该服务器凭借系统级创新与软硬件深度协同,成功实现了对DeepSeek R1 671B全参数基础大模型的单机部署与运行。这一突破,标志着AI推理能力迈上了新的台阶。
DeepSeek开源的多版本模型中,R1 671B以其强大的泛化能力、高精度及卓越的上下文理解能力脱颖而出,但同时也对计算资源提出了前所未有的挑战。特别是在FP8精度下,该模型需要至少800GB的显存容量,而在FP16/BF16精度下,则需超过1.4TB的显存空间。DeepSeek R1作为长思维链模型的代表,其推理解码阶段对显存带宽和低通信延迟有着极高的要求。
针对这些挑战,元脑R1推理服务器NF5688G7应运而生。该服务器原生配备了FP8计算引擎,并搭载了1128GB的HBM3e显存,完美满足了DeepSeek R1 671B模型在FP8精度下的显存需求。即使在全量模型推理的情况下,NF5688G7仍能保留足够的KV缓存空间,其显存带宽更是高达4.8TB/s。在通信方面,GPU间的P2P带宽达到了900GB/s,基于最新的推理框架,单机即可支持20-30用户的并发需求。NF5688G7还配备了3200Gbps的无损扩展网络,可根据业务需求灵活扩展,为用户提供R1服务器集群的即插即用解决方案。
而另一款专为大型推理模型设计的元脑R1推理服务器NF5868G8,则以其高吞吐性能惊艳亮相。该服务器首次实现了单机支持16张标准PCIe双宽卡,提供了最高1536GB的显存容量,能够在FP16/BF16精度下单机部署DeepSeek 671B模型。NF5868G8采用了基于PCIe Fabric的16卡全互连拓扑结构,任意两张卡之间的P2P通信带宽均可达到128GB/s,通信延迟降低了超过60%。通过软硬件的深度协同优化,相比传统的2机8卡PCIe机型,NF5868G8在DeepSeek 671B模型的推理性能上提升了近40%,并已支持多种AI加速卡的选配。
浪潮信息的这一系列创新,不仅展现了其在AI推理领域的深厚实力,更为AI大模型的应用落地提供了强有力的支撑。未来,随着AI技术的不断发展,元脑R1推理服务器有望成为推动AI行业进步的重要力量。