本周四,总部位于英国的 AI 芯片公司 Graphcore 发布了新一代 IPU 产品 Bow,这是其第三代 IPU 系统,发布即面向客户发货。与上一代 IPU 相比,Bow IPU 性能提升 40% ,能耗比提升了 16%,电源效率也提升 16%。
值得注意的是,这一次 Bow IPU 的性能提升并非主要依赖采用更先进的制程,Bow IPU 采用了和上一代 IPU 相同的台积电 7nm,通过采用和台积电共同开发的先进硅晶圆堆叠技术(3D Wafer-on-Wafer)达到性能和能耗比的提升。
Bow 作为世界首款 3D WoW 处理器,证明了芯片性能提升的范式从先进制程向先进封装转移的可行性。
新一代 IPU 性能提升 40%,价格保持不变
2016 年,Graphcore 成立并开创了全新类型处理器架构 IPU,因其在架构上的创新曾被英国半导体之父 Hermann Hauser 称之为是计算机历史上的第三次革命。
经历 6 年时间的发展,Graphcore 的 IPU 逐渐在在金融、医疗、电信、机器人、云和互联网等领域取得成效。本周四,Graphcore 又推出了第三代产品 Bow IPU。
据 Graphcore 介绍,第三代 IPU 相对于上一代 M2000,性能提高 40%,每瓦性能提升 16%,即能耗比实现 16% 的提升。不过,AI 芯片的真实性能还需要放在不同的应用领域中讨论。为此,Graphcore 也给出了在不同垂直领域中 Bow 的性能表现。
在图像方面,无论是典型的 CNN 网络,还是近期比较热门的 Vision Transformer 网络,以及深层次的文本到图片的网络,与上一代产品相比,Bow IPU 都有 30% 到 40% 的性能提升,在 EfficientNet-B4 这一项中,接近理论上限值。
BERT 训练模型是自然语言方面的经典模型,基于 BERT,OpenAI 提出了 GPT-1、GPT-2、GPT-3 等纵向扩展或横向扩展,通过更深的网络层次和更宽的网络宽度让模型的性能和精度进一步提高。
“我们可以看到,这些模型在我们最新的硬件形态上都有很大的性能提升。”Graphcore 中国工程副总裁、AI 算法科学家金琛介绍道。
不仅如此,转换到实际模型中的吞吐量,与 IPU POD64 相比,在计算机视觉的 ResNet50 和 EifficientNet-B4 训练模型中,Bow Pod64 的吞吐量能够达到 34% 和 39% 的性能提升。自然语言方面,BERT-Large Ph1 预训练模型和语音识别 Conformer Large 训练模型,后者都有 36% 的吞吐量提升。
作为英伟达的竞争对手,Graphcore 自然不忘将 Bow Pod16 与 DGX-A100 进行对比,实验数据表明,EfficientNet-B4 的 backbone 的训练在 DGX-A100 上需要花费 70 个小时的训练时间,而在 Bow Pod16 上,只需要 14 小时左右。
接近理论极限的性能提升,Graphcore Bow IPU 是如何实现的?
5nm 不再是首选,采用先进封装性价比更高
从芯片的规格上看,Bow IPU 是世界上第一款基于台积电的 3D Wafer-On-Wafer 的处理器,单个封装中拥有超过 600 亿个晶体管,具有 350 TeraFLOPS 的人工智能计算的性能,是上一代 MK2 IPU 的 1.4 倍。片内存储较上一代来看没有变化,依然保持 0.9GB 的容量,不过吞吐量从 47.5TB 提高到了 65TB。
“变化主要体现在,它是一个 3D 封装的处理器,晶体管的规模有所增加,算力和吞吐量均得到提升。”Graphcore 大中华区总裁兼全球首席营收官卢涛说道。而在大家都关注的工艺制程上,Bow IPU 延续了上一代台积电 7nm 工艺制程,没有变化。
理论上,一颗芯片的性能提升很大程度上取决于工艺制程上的进步,但随着工艺制程越来越逼近物理极限,摩尔定律逐渐失效,业界不得不寻找新的技术方向来延续摩尔定律。其中,3D 封装就是被业界广泛看好的技术方向。
中国工程院院士、浙江大学微纳电子学院院长吴汉明就曾在一次演讲中提到,如果将芯片制造和芯片封装相结合,也可以做到 65nm 工艺制程实现 40nm 工艺制程的性能功耗要求。
Bow IPU 正好验证了吴院士的观点。
卢涛表示,Bow IPU 产品性能的提升主要来源于 3D WoW 和新增的 Die。
至于为何选择改变封装方式而不是更先进的工艺,卢涛则表示 MK2 IPU 有 594 亿个晶体管,大概 823 平方毫米,已经是 7nm 单个 Die 能够生产的最精密的芯片。
“我们评估从 7nm、5nm,到 3nm 等不同工艺节点的收益时发现,从 7nm 到 5nm 的生产工艺提升所带来的收益不像以前从 28nm 到 14nm 一样,能够带来百分之几十的收益,而是降到了 20%。这时候我们可以通过别的手段和方法获得同样的收益。”
通过 3D 堆叠的方式,Bow IPU 的两个 Die 增加了晶体管的数量,其中一个 Die(Colossus Die)和上一代一样,另一个 Die 主要用于提高跨 Colossus Die 的电源功率传输,优化 Colossus Die 的操作节点,从而转化为有效的时钟加速。
在同台积电的合作方面,卢涛告诉雷峰网,Graphcore 在一年之前就同台积电合作了一颗测试芯片,与台积电的关系非常紧密,加上 AI 处理器本身规模较大,需要一些新技术支持落地,而从台积电的角度而言,新的技术也需要有需求的产品共同推进。
值得一提的是,虽然封装方式有所变化,但 Bow IPU 开箱即用,与前一代产品百分之百软件兼容,不用修改任何代码,老用户无需做任何软件适配工作就能获得性能提升,价格保持不变。
目前,美国国家实验室 Pacific Northwest 已经基于 Bow IPU 尝试做一些基于 Transformer 的模型以及图神经网络,面向计算化学和网络安全方面的应用,且给出了比较正面的反馈。
延续 3D 封装,开发超越人脑的超级智能机器
Bow IPU 使用 3D 封装只是起点,面向未来,Graphcore 正在开发一款可以用来超越人脑处理的超级智能机器。
Graphcore 将这款正在研发的产品命名为 Good Computer,一方面希望计算机能够为这个世界带来正面的影响,另一方面致敬著名计算机科学家 Good。
基于 3D WoW,预计未来 Good Computer 将包含 8192 个 IPU,提供超过 10 Exa-Flops 的 AI 算力,实现 4 PB 的存储,可以助力超过 500 万亿参数规模的人工智能模型的开发。
取决于不同的配置,Good Computer 价格将在 100 万美元到 1.5 亿美元之间。
卢涛表示,开发 Good Computer 还是会沿用 IPU 的体系结构,IPU 的存储是在处理器里面,虽然不叫类脑、内存计算或存算一体,但从某种程度上而言,IPU 的运作机理接近大脑计算的工作原理,只是把计算和存储相结合。
另外,Graphcore 也将从软件方面更有效支持稀疏化以达到类脑的计算量。