在刚刚结束的 2021 年架构日上,Intel 公布了全新的独立显卡架构 Xe HPG,基于该架构的首批 GPU 将采用台积电 N6 工艺,于 2022 年第一季度上市。这是 Intel 从 1998 年发布 i740 以来,二十多之后再次踏入独立 GPU 市场。
由于 Intel 的加入,独立 GPU 的市场将再次变成“三国杀”的局面,从图形图像到 AI 和高性能计算,技术竞争和市场争夺将全面升级。
从专用到通用
GPU 市场行情大好。根据市场研究公司 Jon Peddie Research 的报告,2021 年第一季全球 GPU 出货量达 1.19 亿颗,同比增长 38.78%,环比下降 3%。
虽然 Intel 在整体 GPU 出货上占据了 68% 的市场份额,但是在独立 GPU 方面,英伟达则以 81% 的份额占据绝对领先,而 AMD 以 19% 的占有率排名第二。据 JPR 的分析师预测,独立 GPU 的出货量还将继续提升,到 2025 年将占整体 GPU 市场的 26%。
无论是云端、边缘侧还是终端,各种电子系统都需要高性能的图像处理能力,GPU 的发展因此进入加速阶段。独立 GPU 因为用途广泛,更是成为了大芯片中的佼佼者,架构和工艺都已达芯片业的顶峰。
英伟达在 2020 年发布的面向消费市场的旗舰级 GeForce RTX 30 系列 GPU,采用了三星 8nm 工艺,其中的 RTX3080 和 RTX3090,所包含的晶体管数目已经达到了 280 亿个。与之对应,AMD 的 RX 6000 系列,采用了台积电的 7nm 工艺,晶体管数目也达到了 268 亿个。
顶尖的工艺和庞大的晶体管数目对应了越来越复杂的芯片架构。以目前最新的英伟达安培(Ampere)架构为例,其运算部份就包括了流处理器 (Stream Processor,SP)、纹理单元(Texture mapping unit, TMU)、张量单元(Tensor Core)、光线追踪单元(RT Cores)、光栅化处理单元(ROPs)。
其中,在游戏中应用越来越多的光线追踪技术由光追单元来负责,而将 GPU 带入 AI 领域的则是张量单元,可用于实时深度学习、大型矩阵运算和深度学习超级采样(DLSS)。这两个单元的引入也将 GPU 的性能和作用完全提升,从图形处理器升级成计算处理器。
为了追求性能的极致,独立 GPU 之间的竞争因此就演化了成了架构之间的比拼。英伟达在 2020 年推出了安培架构,AMD 则回应了 RDNA 2 架构,使得其 RX 6000 在性能上可以与 RTX 30 一较高下。
有人将 GPU 架构的升级趋势概括为“更多”、“更专”、“更智能”。晶体管数量和运算单元的增加是为多,其中包括流处理器单元、纹理单元、光栅单元等数量上升。“更专”是指除了常规的计算单元,GPU 还会增加新的运算单元。“更智能”是指 GPU 的 AI 运算能力上升。
这次 Intel 加入战局也是有备而来,Xe 架构经过多年打磨而出,不但具备了时下最流行的各种元素,还使用了台积电的 6 纳米工艺,完全有实力与英伟达和 AMD 一较高下。
不过,有业内人士指出,Intel 还是一个基因属于 CPU 的公司,而在 GPU 上的投入需要配合 CPU 的成长,因此处理好 CPU 和 GPU 之间的发展冲突将是一个很大的挑战。
争夺数据中心和更广阔天地
2012 年,多伦多大学 Alex Krizhevsky 创建了能够从 100 万样本中自动学习识别图像的深度神经网络。仅在两块 NVIDIA GTX580 GPU 上训练数天,“Alex Net”就赢得了当年的 Image Net 竞赛,击败了磨练几十年的所有人类专家算法。认识深度学习的强大后,斯坦福的 Andrew Ng 与 NVIDIA 研究室合作开发了一种使用大规模 GPU 计算系统训练网络的方法。深度神经网络技术从此迅速发展,也一举奠定了 GPU 在 AI 领域的地位。
GPU 提供了多个并行计算的基础结构,并且核心数较多,可以进行海量数据的并行计算,还拥有更高的访存速度和很高的浮点运算能力。这一切都使得 GPU 完美契合了 AI 计算的需求。
当前,GPU 是 AI“训练”阶段较为适合的芯片。GPU 在 AI 时代的云端训练芯片中占据较大的份额,达到 64.%。虽然后期由于 FPGA 以及 ASIC 技术的突破,GPU 的市场份额有所下降,但是仍然是云端训练市场份额最大的芯片,2019 年-2021 年年复合增长率达到 40%。
这一切的起点就是 GPGPU 的应用。用于通用计算的 GPU 被称为 GPGPU,可以与 CPU 协同工作,将一些大计算量的负载承接过来,以加速应用程序。
GPGPU 的概念始于学界,真正让其发扬光大的还是英伟达。2006 年,英伟达推出了 Tesla 架构,把 GPU 中的矢量计算单元拆成了多个标量计算渲染单元,使其更适合通用计算。2007 年,英伟达又推出了 CUDA,专为 GPU 设计的并行计算平台和编程模型。通过 CUDA 可以大大降低用 GPU 做通用计算的难度,因此大大降低了 GPGPU 应用的门槛。
当 CUDA 与深度学习相结合,更是释放了 GPU 的巨大潜力,也让 AI 从实验室走入了业界。同时,GPU 也稳固了自己在数据中心的地位。
凭借 GPU 在数据中心的表现,英伟达的业绩也一路走高。在 2022 年 Q1 财季,其数据中心业务营收为 20.5 亿美元,创下公司历史上的新纪录,与上年同期相比增长 79%,与上一季度相比增长 8%,占总营收的比重已达 36%。
在此领域发力较晚的 AMD 现在也开始奋起直追。根据 AMD 首席执行官 Lisa Su 的说法,该公司第二季度数据中心 GPU 的销售收入“同比增长了一倍多”。Lisa Su 将该细分市场的出色表现归功于该公司 Instinct 加速器部署的增加,其中还包括其基于 CDNA 2 架构的最新数据中心显卡的首次出货。
现在,终于轮到 Intel 出手了。最新的面向数据中心的 GPU Ponte Vecchio 重磅出炉,拥有 1000 亿颗晶体管的 SoC 也创下了 Intel 之最。
Ponte Vecchio 基于 Xe-HPC 微架构,由多个复杂的设计组成,这些设计以单元形式呈现,然后通过嵌入式多芯片互连桥接(EMIB)单元进行组装,实现单元之间的低功耗、高速连接。这些设计均被集成于 Foveros 封装中,为提高功率和互连密度形成有源芯片的 3D 堆叠。
“在 ASIC 和 FPGA 都在与 GPU 进行竞争的时刻,Intel 选择了 GPU,说明 GPU 可能还是通用 AI 的最好选择。”行业专家刘明(化名)这样评论道。
这颗巨大的芯片也可以被看做是对英伟达推出数据中心 CPU 的反击,双方至此都形成了 CPU+GPU 的布局。
同时,英特尔还在发展其 oneAPI 计划,使其成为 Nvidia CUDA 的强大竞争对手,因为它的范围不仅限于 GPU,而且涵盖 CPU 和所有处理器。
尽管独立 GPU 不能完全取代 CPU,但是其已经成为数据中心中非常关键的一环。当三大芯片厂商都汇聚于此时,GPU 还会有更多精彩的故事。