近日,在荷兰阿姆斯特丹举行的OCP Regional Summit 2019大会上,百度与浪潮联合发布了全球首款基于OCP OAI标准(开放加速器基础设施)和液冷的AI计算新品X-MAN 4.0。
X-MAN 4.0是百度超级AI计算平台X-MAN系列产品的第四代,浪潮作为百度的重要合作伙伴之一,一直参与X-MAN系列产品的研发和生产,并X-MAN 4.0作为其目前在超级AI计平台上的最强有力产品推出。
X-MAN系列,从1.0到4.0
X-MAN系列是百度用于超大规模AI训练的专用平台,已在百度的数据中心大规模应用。其中,第一代X-MAN 1.0首次实现了AI计算硬件解耦架构;第二代X-MAN 2.0首次将冷板式液冷散热技术应用到AI计算产品里;第三代X-MAN 3.0则首次提出了模块化标准化设计的理念。
第四代X-MAN 4.0作为全球首款基于OCPOAI标准(开放加速器基础设施)和液冷的AI计算新品,平台的单节点能够支持8个AI加速器。这些加速器之间采用了8port HCM(Hybrid Cube Mesh)的互联架构,双向通信带宽高达56GBps,充分保证AI加速器的性能。
而在单个机柜层面,X-MAN 4.0最大可支持32个AI加速器构建互联集群,很好的增强了平台可扩展性。
X-MAN 4.0符合ODCC 3.0整机柜规范,高度为4SU(182.5mm),宽21英寸(536.0mm),长度850mm,支持风冷、液冷散热方式,并采用了更高效的48V供电方式。
百度超级AI计算平台X-MAN 4.0
OCP社区与OAI标准
OCP(Open Compute Project)即开放计算项目,它是由Facebook携英特尔、Rackspace等公司于2011年成立的一个非营利组织,目的是与普通的IT产业共享更高效的服务器和数据中心设计。同时,它也是全球云计算基础硬件技术领域覆盖面最广、最有影响力的开源组织。
而OAI(Open Archives Initiative)标准是OCP社区里由百度主导并联合Facebook、Microsoft等针对AI硬件加速模块和系统设计所制定的标准。该标准用于指导AI硬件加速模块和系统设计,它集合定义了AI硬件加速模块本身、主板、互联拓扑、机箱、供电、散热以及系统管理等一系列设计规范。
目前,OAI标准也得到了众多社区成员的支持,包括:Facebook、Microsoft、Google等互联网企业,Intel、AMD、高通等AI芯片企业,及浪潮、IBM、联想等系统供应商。
获得众多企业成员支持的 OAI标准
打造全球标准,加速AI进程
可以看到,由百度主导的OAI标准定义,在一定程度上推动了AI新硬件技术全球范围内的创新与进步。
OAI标准的推行,不仅能够直接使得相关厂商统一AI硬件加速模块和系统设计,提高多元化AI加速芯片兼容性;而且还有利于促进不同AI加速器技术的开放融合,从而让AI计算平台设计更加敏捷,产业配套更为简化。
百度副总裁侯震宇曾表示:“OAI标准将极大提高不同AI硬件加速模块和系统的互操作性,加速新AI硬件加速模块的大规模落地应用,全球AI硬件生态系统都会从中受益。”这也代表了百度将自身在AI领域的最佳实践共享至国际AI社区的初心。