【ITBEAR】在加州圣何塞,2024年度的开放计算全球峰会(OCP Global Summit)成功举行,汇聚了超7000名基础设施软硬件领域的专家。峰会围绕“创新的力量”主题,深入探讨AI基础设施技术生态,特别是OCP基金会的人工智能开放系统战略计划,为AI领域注入了全新活力。
阿里云服务器研发资深总监文芳志与UALink联盟主席Kurtis Bowman共同发表了《UALink:加速AI的未来》演讲,分享了AI服务器Scale UP互连技术的最新进展和UALink标准的未来路径。
UALink协议,由行业领导者共同发起,旨在成为AI服务器Scale UP互连新标准,具备高性能、高带宽和低时延特性。10月底,UALink联盟将正式成立,并发布第一版UALink规范。
针对全球及中国市场的挑战,ALink System(ALS)产业生态应运而生,推动UALink标准实施。ALS提供统一标准的互连系统,包括ALS-D数据面和ALS-M管控面,为AI训练和推理提供全面解决方案。
ALS-D支持UALink国际标准,形成竞争力强的数据面方案,同时增加网内计算等特性。ALS-M则为不同芯片方案提供标准化接入,支持开放生态和厂商专有互连协议的统一软件接口。
遵循ALink System规范,阿里云推出磐久AI Infra 2.0服务器,支持下一代超大规模AI集群。该服务器体现开放生态、高能效、高性能和高可用理念,定义AI计算节点和Scale Up/Scale Out互连系统。
互连系统ALink System全面兼容UALink生态,构建超高性能、超大规模Scale UP集群互连能力。一级互连支持64-80个节点,二级互连可达2000个以上节点,提供强大支持。
AI Infra 2.0服务器集成阿里自研CIPU 3.0芯片,支持高带宽大规模AI服务器Scale Out网络扩展。在硬件工程方面,该服务器单机柜支持最大80个AI计算节点,采用400V PSU,单体供电效率可达98%。
在运维管理上,AI Infra 2.0服务器采用全新CableCartridge后维护设计,支持全盲插,零理线易运维、零误操作。在可靠性方面,该服务器支持弹性节点、智能路由等技术,实时监控并自愈硬件故障。
阿里云积极推动ALink System产业生态建设,已有20多家厂商加入。阿里云不仅是UALink的积极支持者和ALink System产业生态的牵头者,还是多个互连技术行业组织的成员。
阿里云磐久AI Infra 2.0服务器与UALink联盟的携手,展示了阿里云在AI基础设施领域的技术实力和创新能力,体现了其在推动开放计算和AI技术发展中的领导地位。