ITBear旗下自媒体矩阵:

至强6最强形态曝光!算力存力Buff叠满,有多强?

   时间:2024-10-09 03:22:46 来源:ITBEAR编辑:快讯团队 发表评论无障碍通道

【ITBEAR】2024年是至强的大年。

先于6月正式发布的至强®️ 6700E系列开启了全新的、更为简洁命名方式:至强®️ 6能效核。144核的规格也意味着英特尔在最近几年当中首次在核心数量方面实现了领先。而且,这还并不是至强6的最强形态,毕竟大家都知道还有个6900P系列嘛。

9月26日,至强6这个“最强形态”终于正式发布,主要规格非常震撼。即使面对今年内晚于自己发布的其他厂商同级别CPU,至强®️ 6900P的已有规格也战力十足。

最强至强能有多强?

尤为值得一提的是:至强6900P也是业内首款性能核数量正式“破百”的产品,其他同级产品,不论是x86架构还是Arm架构都只达到了96核的水平。它们的性能核数量要追平英特尔,起码得等到下个季度。

至强6900P的UPI2.0链路也有很大改进,速率提升到24GT/s,数量增加至6条,使得双路互联效率进一步提升。结合内核数量、内存带宽等方面的全面提升,至强6900P可以被视作高算力+高存力平台的最强机头,不论是科学计算,还是AI集群。根据已透露的测试,至强6900P平台的数据库、科学计算等关键应用负载的表现是上一代产品的2.31倍-2.5倍,AI应用性能是其1.83倍-2.4倍不等。

至强6的扩展能力也有不小的提升。其中6900系列单插座不论是性能核还是能效核均可提供96通道PCIe 5.0,双路即可提供192通道PCIe 5.0。未来上市的6700系列单路型号可以提供136通道PCIe 5.0,双/多路型号单插槽也可以提供88通道。相较而言,第四、五代至强可扩展处理器的PCIe 5.0通道数量为80。CXL支持能力方面,至强6 6900、6700系列都支持64通道CXL 2.0。

更多的内核、更多的内存通道、更多的PCIe通道需要更大规模的插座接口支持。 至强6带来了两种接口:LGA 4710和LGA 7529。至强6900系列使用面积较大的LGA 7529插座,提供最强大的内存带宽和扩展能力,是未来高性能、高密度服务器的基础。至强6700以及未来的6500/6300系列使用LGA 4710,尺寸与第四、五代至强的LGA 4677相仿,内存、PCIe的通道数相同或相近,有利于主流服务器内部布局习惯的延续性。

改进的EUV:Intel 3

核心规模的飙升首先得益于至强产品线终于获得EUV光刻机的加持。在2023年发布的酷睿Ultra已经率先使用了引入EUV的Intel 4制造工艺。而2024年发布的至强6则使用了进一步改良的Intel 3制造工艺。

Intel 3在更多的步骤中应用EUV光刻,可以提供更密集的设计库、更高的晶体管驱动电流。Intel 3还有三种变体,包括3-T、3-E和3-PT。Intel 3、3-T是基本工艺,主要用于CPU;3-E是功能扩展;三者都支持TSV;Intel 3的这三种变体与Intel 4相比可以提升18%的性能功耗比。而3-PT进一步增加混合键合的支持能力,带来了更高的性能并且易于使用。Intel 3所有四种节点变体都支持240 nm高性能和210 nm高密度库,而Intel 4只支持240 nm高性能库。

对于性能取向,Intel 3针对高性能运算进行优化,可以支持低电压(<0.65V)和高压(>1.3V)运行,且在各电压下的频率均高于Intel 4。

微架构大迭代

至强6900P采用的性能核微架构代号Redwood Cove。Redwood Cove也是近年来英特尔最重要的微架构迭代,不但给服务器产品线带来了新名字,在消费类产品线同样开启了新的命名序列酷睿Ultra。

指令TLB翻倍,从128条增加到256条; 指令提取带宽从每周期16字节翻倍到32字节; 解码器从4路扩展到6路; 微操作缓存从2304条增加到4096条。 其他L1 BTB、L2 BTB等也有所提升。

Golden Cove的后端当然也有提升,譬如重排序缓冲区、分支目标缓冲区也有大概30%左右的提升,只是相对前端幅度不那么大。

Redwood Cove相对Golden Cove/ Raptor Cove的最重要变化是:

指令缓存从32KB增加到了16路、64KB; 微操作队列从144个条目增加到192个条目; 指令执行延迟降低; 更智能的预取和改进的BPU; L2缓存的带宽有所提升 lAMX增加FP16支持

能效核的指令缓存与性能核都是64KB,但数据缓存分别是32KB和48KB。前端的指令解码器宽度也有差异,分别为6和8宽。指令乱序执行引擎差异较大,能效核是256条而性能核是512条。能效核不支持性能核所支持的AVX-512和AMX,这也可以明显减小矢量运算单元的晶体管占用,但代价是每周期的单精度浮点运算次数有了数量级的差异。但能效核也改进了AVX2,增加了VNNI的INT8和BF16/FP16快速转换,这样在处理AI应用的时候表现也还有所改善。另外,其256位加密和1024/2048密钥也获得了能效核的支持,确保至强6平台的安全水平基本一致。

缓存规模、前端宽度以及矢量单元的差异,使得至强6性能核和能效核有不同的定位。早先发布的至强6能效核更适合微服务等运算强度相对较轻,可在高核心数量和规模扩展方面收益的任务,以追求更高的能效、更高的机架利用率。而现在发布的至强6性能核更适合大数据、建模仿真等计算密集型和人工智能任务,为高性能优化,单颗处理器的功耗直飚500W——当然,跟同期发布的Gaudi AI加速器的新品或类似的加速器产品相比,能耗是应有的代价,有能力提升性能上限才是正经事。

内存性能大跃进

在至强6900P上,内存问题终于得到了比较好的解决。这涉及三个角度:

1、 大容量末级缓存。前面提到过,6900P每个网格提供4MB L3,总容量达到了504MB,分别是四代的4.5倍、五代的1.6倍。而且,至强的全网格架构使得任意内核访问末级缓存的延迟相比其他厂商的一些产品有更优的表现,例如不需要跨计算单元而造成延迟剧增。这种架构效率更高的优势也是至强在核数曾落后的情况下还能打的有来有往的关键原因。

2、 DDR5内存双管齐下提升带宽。至强6900系列支持12通道DDR5 6400,总带宽可以达到614GB/s,平均每核的带宽大致还有5GB/s的水平。6900P还支持新型内存MRDIMM,频率提升至8800MT/s,总带宽达到了845GB/s,平均每核6.6GB/s,也明显超过了前两代产品,大幅度逆转了内核数量增加、平均内存带宽不升反降的问题。

这里重点说一下CXL内存的优势。CXL2.0支持链路分叉,使一个主机端口可以对接多个设备,而且提供更强的CXL内存分层支持,可实现容量和带宽扩展。至强6支持3种CXL内存扩展模式:CXL Numa Node、CXL Hetero Interleaved、Flat Memory。

踏上Chiplet异构之路

至强6是至强家族首次将计算和IO芯片独立,再通过Chiplet形式封装在一起,总算是把高级封装的优势真正发挥出来了。

第四代至强可扩展处理器是英特尔的首个Chiplet设计的至强处理器。其XCC版本内部是4颗芯片通过10组EMIB对等连接,每颗芯片提供15个内核、2通道内存控制器、1组加速单元,以及UPI、PCIe PHY若干。另外,还可以通过EMIB封装4颗HBM。

第五代至强可扩展处理器使用2颗芯片封装而成,所使用的EMIB数量明显减少,相应地也节约了芯片面积。虽然内核数量略有增加,但也损失了UPI、PCIe的数量,也不再能够搭配HBM。

随着制造工艺演进,偏重计算性能和晶体管密度的处理器内核,与偏重高速信号互联的IO控制器对制造工艺的要求产生了差异,因此,典型的Chiplet设计将计算和IO分离,分别应用不同的制造工艺。英特尔在14代酷睿上便采用了这种方式,分为Compute Tile、SoC Tile、IO Tile、Graphic Tile。代号Ponte Vecchio的英特尔Data Center GPU Max利用Foveros和EMIB技术,将47个小芯片封装在一起,包括Compute Die、Base Die、Rambo、IO Die等。

计算单元

根据收集到的信息,对于能效核,目前只出现了一种计算单元的设计,每个单元最多提供144个内核、4组内存控制器共八通道;对于性能核,则是有三种计算单元的设计,可分别用于组合高核数、中等核数、低核数的规格。

通过使用3种计算单元进行组合,至强6性能核可以构建跨度从8~128核的、非常绵密的规格。也许会有人认为,相比其他厂商只用一种规格计算单元实现扩展的设计,英特尔需要设计三颗不同的芯片的成本会更高。但我认为,这是英特尔优先考虑性能的结果。首先,至强6将内存控制器安排在计算单元中,离内核更近,延迟更低,即使因此牺牲了单元组合使用的灵活性也是值得的。其次,至强6性能核给不同规模的内核数量规划不同的网格规模,有利于降低核间的延迟,甚至,有可能LCC会针对较低的核数改用环形总线。综上,预计至强6性能核相对同等规模的其他厂商的产品依旧可能会拥有内存延迟低、缓存延迟低的优势。

IO单元

IO单元方面,至强6900、6700系列都使用2颗相同的IO芯片。每个IO芯片由2个IO模块、4个UIO模块、2个加速器模块,以及IO网络接口构成。每个IO模块提供x16 PCIe或CXL连接;每个UIO模块提供x24 UPI2.0,或复用为x16的PCIe或CXL;每个加速器模块提供DSA、IAA、QAT、DLB加速器各一个。

结语

至强6终于实现计算与IO的解耦,也让至强6及未来的产品线走上了正确、灵活的道路,得以充分发挥Chiplet的优势。将Chiplet视作降低成本、提高良率的手段是狭隘的。Chiplet的价值在于灵活、复用、重构。英特尔长期以来很注重细分市场的耕耘,产品线非常复杂,正确利用Chiplet可以达到事半功倍的效果。我们非常期待至强6后续产品的陆续发布能够给业界带来什么样的想象力。

雷峰网

举报 0 收藏 0 打赏 0评论 0
 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  RSS订阅  |  开放转载  |  滚动资讯  |  争议稿件处理  |  English Version