寒武纪首款智能加速器玄思1000包含4片思元290智能加速卡,最大AI算力超过4100万亿次每秒(4.1 PetaOPS INT4),一台玄思1000计算单元就足以替代一个小型传统超级计算中心。
玄思1000内置高带宽低延时的MLU-Link™多芯互联技术,实现内部4颗思元290进行高速互联,同时打破服务器、紧耦合微集群(POD)与集群的传统数据中心横向扩展架构,将AIDC构建为节点、POD乃至超大规模混合扩展架构(Hybrid Scale-out),实现AI算力计算中心级纵向扩展,满足高性能、高扩展性、灵活性、高鲁棒性的要求。
重塑AIDC基础架构
算力、算法、数据是人工智能发展的三大要素,随着这几年AI的逐步发展,算力的核心地位更为突出。人工智能技术落地于实际应用中需要芯片和硬件层面强大的算力支撑。算力已成为驱动AI产业化和产业AI化发展的关键要素。
下一代AIDC要求更多智能芯片无缝协同、并行运行的同时,还能保持高计算效率,从而提供超级巨大的算力,以应对超大规模训练的需要。寒武纪玄思1000智能加速器重新思考了未来AIDC的基础架构,在内部和外部采用统一的MLU-Link™多芯互联技术进行通讯,使得思元290智能芯片的互联范围可以从单机扩展到POD乃至整个计算中心,重塑了基础架构。
玄思1000支持8个400G MLU-Link™和2个200G网络接口,总带宽高达3600 Gbps,是传统异构服务器的2倍。玄思1000配置8个对外互联的MLU-Link™接口,支持跨系统互联构建MLU POD。标准配置支持MLU POD 16、24、32。在POD内部,所有290芯片均可通过MLU-Link™多芯互联技术进行通讯,在带宽和延时方面实现了突破;POD外部通过玄思1000内置的网卡与其他系统进行通讯,实现了AI训练集群性能、扩展性和鲁棒性的协同提升。
除了标准配置的POD之外,在计算中心条件允许的前提下,通过MLU-Link™多芯互联技术,可实现1024颗或更多思元290互联,不需要额外的网卡即可实现无缝加速。