回望过去一年,科技处于所有人如何沟通、工作、娱乐和应对新冠肺炎疫情的核心。事实证明,强大的计算能力至关重要。展望未来,我们面临庞大的算力需求。
在2021年英特尔架构日活动上,英特尔重磅介绍其全新引领行业标准的数据中心架构Sapphire Rapids,搭载了全新的性能核以及多种加速器引擎。同时详细介绍了英特尔全新的基础设施处理器(IPU)以及超凡的数据中心GPU架构Ponte Vecchio,其具备英特尔迄今为止最高的计算密度。这些新架构将为即将推出的高性能产品注入动力,并为英特尔的下一个创新时代奠定基础,以满足世界对高计算能力日益增长的需求。
下一代英特尔至强可扩展处理器(代号为“ Sapphire Rapids ”)
Sapphire Rapids代表了业界在数据中心平台上的一大进步。该处理器可在不断变化且要求日益增高的数据中心使用中提供可观的计算性能,并对工作负载进行优化,以在云、微服务和AI等弹性计算模型上提供高性能。
Sapphire Rapids的核心是一个分区块、模块化的SoC架构,采用英特尔的嵌入式多芯片互连桥接(EMIB)封装技术,在保持单晶片CPU接口优势的同时,具有显著的可扩展性。Sapphire Rapids提供了一个单一、平衡的统一内存访问架构,每个线程均可完全访问缓存、内存和I/O等所有单元上的全部资源,由此实现整个SoC具有一致的低时延和高横向带宽。
Sapphire Rapids基于Intel 7制程工艺技术,采用英特尔全新的性能核微架构,该架构旨在提高速度,突破低时延和单线程应用性能的极限。
Sapphire Rapids提供业界广泛的数据中心相关加速器,包括新的指令集架构和集成IP,以在各种客户工作负载和使用中提升性能。新的内置加速器引擎包括:
· 英特尔 ® 加速器接口架构指令集( AIA ) ——支持对加速器和设备的有效调度、同步和信号传递
· 英特尔 ®高级矩阵扩展 ( AMX ) ——Sapphire Rapids中引入的新加速引擎,可为深度学习算法核心的Tensor处理提供大幅加速。其可以在每个周期内进行2000次 INT8运算和1000次 BFP16运算,实现计算能力的大幅提升。使用早期的Sapphire Rapids 芯片,与使用英特尔 AVX-512 VNNI 指令的相同微基准测试版本相比,使用新的英特尔AMX 指令集扩展优化的内部矩阵乘法微基准测试的运行速度提高了 7 倍以上,为 AI 工作负载中的训练和推理上提供了显着的性能提升
· 英特尔 ® 数据流加速器 ( DSA ) ——旨在卸载最常见的数据移动任务,这些任务会导致数据中心规模部署中的开销。英特尔DSA改进了对这些开销任务的处理,以提供更高的整体工作负载性能,并可以在CPU、内存和缓存以及所有附加的内存、存储和网络设备之间移动数据
这些架构上的改进使Sapphire Rapids能够为云、数据中心、网络和智能边缘中广泛的工作负载和部署模式提供开箱即用的性能。该处理器旨在通过先进的内存和下一代I/O,包括PCIe 5.0、CXL 1.1、DDR5和HBM技术,来推动行业技术转型。
基础设施处理器( IPU )
IPU是一种可编程的网络设备,旨在使云和通信服务提供商减少在中央处理器(CPU)方面的开销,并充分释放性能价值。
英特尔基于IPU的架构有以下主要优势:
· 基础设施功能和客户工作负载的强分离使客户能够完全控制CPU
· 云运营商可以将基础设施任务卸载到IPU上,更大化实现CPU利用率和收益
· IPU可以管理存储流量,减少时延,同时通过无磁盘服务器架构有效利用存储容量。借助IPU,客户可以通过一个安全、可编程、稳定的解决方案更好地利用资源,使其能够平衡处理与存储
英特尔认识到“单一产品无法满足所有需求”,因此对其IPU架构进行了更深入的研究,并推出了以下IPU家族的新成员——均为应对多样化数据中心的复杂性而设计。
Mount Evans 是英特尔的首个ASIC IPU。Mount Evans是与一家一流的云服务提供商共同设计和开发的,它融合了多代FPGA SmartNIC的经验。
· 超大规模就绪,提供高性能网络和存储虚拟化卸载,同时保持高度控制
· 提供业界一流的可编程数据包处理引擎,支持防火墙和虚拟路由等用例
· 使用硬件加速的NVMe存储接口,该接口扩展自英特尔傲腾技术,以模拟NVMe设备
· 采用英特尔®高性能Quick Assist技术,部署高级加密和压缩加速
· 可使用现有普遍部署的DPDK、SPDK等软件环境进行编程,并且可以采用英特尔Barefoot Switch部门开创的P4编程语言来配置管线
Oak Springs Canyon 是一个IPU参考平台,基于英特尔®至强 D 处理器(Intel® Xeon-D)和拥有业界领先的功率、效率、性能的英特尔® Agilex™ FPGA构建:
· 卸载Open Virtual Switch(OVS)等网络虚拟化功能以及NVMe over Fabric和 RoCE v2等存储功能,并提供硬化的加密模块,提供更安全、高速的2x 100Gb以太网网络接口
· 让英特尔的合作伙伴和客户能够使用英特尔®开放式FPGA开发堆栈(英特尔®OFS)定制其解决方案,这是一款可扩展、开源软件和硬件基础设施
· 使用现有普遍部署的软件环境进行编程,包括已在x86上优化的DPDK和SPDK
英特尔 N6000 加速开发平台 ,代号为“Arrow Creek”,是专为搭载至强服务器设计的SmartNIC。其特性包括:
· 在功耗、效率和性能方面处于行业领先地位的英特尔Agilex FPGA。用于高性能的100GB网络加速的英特尔以太网800系列控制器
· 支持多种基础设施工作负载,使通信服务提供商(CoSP)能够提供灵活的加速工作负载,如Juniper Contrail、OVS和SRv6,它以英特尔PAC-N3000的成功为基础,该产品已在部分业界一流的CoSP中部署。
Xe HPC 和 Ponte Vecchio
Ponte Vecchio基于Xe HPC微架构,提供业界领先的每秒浮点运算次数(FLOPs)和计算密度,以加速AI、HPC和高级分析工作负载。英特尔公布了Xe HPC微架构的IP模块信息;包括每个Xe核的8个矢量和矩阵引擎(称为XMX Xe Matrix eXtensions);切片和堆栈信息;以及包括计算、基础和Xe Link单元的处理节点的单元信息。在架构日上,英特尔表示,早期的 Ponte Vecchio 芯片展示了领先的性能,在流行的 AI 基准测试中创造了推理和训练吞吐量的行业记录。1英特尔A0芯片性能提供了高于45 TFLOPS的FP32吞吐量,高于5 TBps的内存结构带宽,以及高于2 TBps的连接带宽。同时,英特尔分享了一段演示视频,展示了ResNet推理性能超过43,000张图像/秒和超过每秒3400张图像/秒的ResNet训练,并且这两项性能都有望实现行业领先。1
Ponte Vecchio由多个复杂的设计组成,这些设计以单元形式呈现,然后通过嵌入式多芯片互连桥接(EMIB)单元进行组装,实现单元之间的低功耗、高速连接。这些设计均被集成于Foveros封装中,为提高功率和互连密度形成有源芯片的3D堆叠。高速MDFI互连允许1到2个堆栈的扩展。
计算单元是一个密集的多个Xe内核,是Ponte Vecchio的核心。
· 一块单元有8个Xe内核,总共有4MB一级缓存,是提供高效计算的关键
· 基于台积电先进的N5制程工艺技术
· 英特尔已通过设计基础设施设置和工具流程以及方法,为测试和验证该节点的单元铺平了道路
· 该单元具有极其紧凑的36微米凸点间距,可与Foveros进行3D堆叠
基础单元 是Ponte Vecchio的连接组织。它是基于Intel 7制程工艺的大型芯片,针对Foveros技术进行了优化。
· 基础单元是所有复杂的 I/O 和高带宽组件与 SoC 基础设施——PCIe Gen5、HBM2e 内存、连接不同单元MDFI链路和 EMIB桥接
· 采用高2D互连的超高带宽3D连接时延很低,使其成为一台无限连接的机器
· 英特尔技术开发团队致力于满足带宽、凸点间距和信号完整性方面的要求
X e 链路单元 提供了GPU之间的连接,支持每单元8个链路。
· 对HPC和AI计算的扩展至关重要
· 旨在实现支持高达90G的更高速SerDes
· 该单元已被添加到“极光”(Aurora)百亿亿次级超级计算机的扩展解决方案中
Ponte Vecchio已走下生产线进行上电验证,并已开始向客户提供限量样品。Ponte Vecchio预计将于2022年面向HPC和AI市场发布。