谷歌近日宣布,其第六代TPU Trillium已正式向Google Cloud的客户开放。这一举措旨在借助Trillium强大的计算能力、卓越的性能以及可持续性,进一步推动AI模型的发展。
作为Google Cloud AI超级计算机的核心组件,Trillium TPU代表了一种革命性的超级计算机架构。它融合了性能优化的硬件、开放的软件环境、前沿的机器学习框架以及灵活的消费模型,共同构成了一个高度集成的系统。
早在今年5月的I/O开发者大会上,谷歌便已经宣布了Trillium TPU。据官方介绍,与上一代相比,Trillium TPU在训练性能上实现了4倍以上的提升,推理吞吐量提升高达3倍,峰值计算性能更是提升了4.7倍。
在效率方面,Trillium TPU同样表现出色。其能源效率提高了67%,每美元训练性能提升高达2.5倍,推理性能也有1.4倍的提升。这一显著的效率提升,无疑将为用户带来更加经济实惠且高效的AI计算体验。
在规模扩展方面,Trillium TPU同样具备强大的能力。单个Jupiter网络结构可容纳多达10万个Trillium芯片,同时配备了双倍的HBM容量和ICI带宽,支持大规模AI训练。谷歌官方表示,Trillium的近乎线性扩展能力,配合高速芯片互连和Jupiter数据中心网络,可以显著加快大型模型的训练速度。
举例来说,在训练gpt3-175b模型时,即使跨数据中心网络运行,24个Pod(共6144个芯片)也能达到94%的扩展效率。这一成绩充分展示了Trillium TPU在大型模型训练方面的卓越表现。
Trillium TPU还具备出色的灵活性和可扩展性。用户可以根据实际需求,灵活调整计算资源和配置,以满足不同规模和复杂度的AI计算任务。这一特点使得Trillium TPU成为众多企业和研究机构在AI领域的首选计算平台。
随着谷歌正式向Google Cloud客户开放第六代TPU Trillium,我们有理由相信,这一先进的计算平台将在未来为AI领域的发展注入更加强劲的动力。