英伟达在最新的GTC 2025大会上,不仅展示了其最新的计算芯片技术,还描绘了未来AI领域的宏伟蓝图。尽管备受瞩目的新一代“核弹级”芯片Rubin还需等待至2026年下半年才能面世,但英伟达现有的Blackwell Ultra芯片已足够令业界瞩目。
Blackwell Ultra作为Blackwell系列的升级版,性能与带宽均有显著提升,且支持最新的NVLink技术,实现了更高的数据传输速度和带宽。这款芯片已开始接受预订,虽然价格不菲,但考虑到其强大的性能,市场反响依然热烈。据透露,亚马逊、微软等科技巨头已提前预订了360万颗Blackwell Ultra芯片,以进一步扩展其全球AI算力中心。
英伟达在发布会上强调,Blackwell Ultra的显存已升级至288GB,在NVL72状态下,其AI性能是前代GB200的1.5倍。尽管这一提升幅度相较于从Hopper架构到Blackwell架构的飞跃略显保守,但英伟达着重指出,FP4推理性能提高了50%。这一提升得益于算力资源的重新分配,FP4推理性能的提升是以牺牲FP64和INT8推理性能为代价的。
随着AI模型对算力和带宽需求的日益增长,Blackwell Ultra的显存增长显得尤为重要。英伟达透露,FP8和FP4为主的低精度训练正逐渐成为主流,这得益于DeepSeek等技术的开源,使得低精度训练在保证准确性的同时,大幅降低了训练成本和推理成本。
展望未来,英伟达真正的下一代芯片Rubin更是令人期待。单芯片FP4性能提升至25 PFLOPS,双芯片设计的Rubin则高达50 PFLOPS,是Blackwell Ultra的三倍以上。显存也升级为HBM4,带宽从8TB/s跃升至13TB/s,NVLink状态下吞吐量更是达到前代的两倍。Rubin支持NVL144,即单个机柜最高可串联144颗芯片,提供高达3.6EF的FP4算力,远超当前Blackwell Ultra的水平。
英伟达还展示了Rubin Ultra,其性能更是惊人,支持NVL576,拥有15 EF的FP4算力和5EF的FP8算力,是GB300 NVL72的14倍。这一系列的升级不仅体现了英伟达在芯片技术上的领先地位,更为全球算力规模的暴涨奠定了坚实基础。
除了硬件升级,英伟达还提出了“AI工厂”的构想,旨在将计算机转变为生产Token的工厂。这一构想中,AI工厂能够根据用户需求全自动化地训练专属AI模型,实现AI模型的“千人千面”。为实现这一目标,英伟达发布了Dynamo系统,这一“AI工厂的操作系统”能够整合优化计算机资源,成倍提高Token生成效率。
英伟达CEO黄仁勋在演讲中强调,随着AI模型的参数量不断增长,算力效率的重要性将更加凸显。高效的算力不仅能够提升Token输出速度,还能降低成本,使企业从每一次用户访问中获得更高利润。他坚信,英伟达的技术将引领AI领域的未来发展,并助力企业实现“买得越多,赚得越多”的目标。
英伟达还宣布将Dynamo系统开源,支持多种框架,以便各企业根据自身需求进行优化和调整。这一举措进一步彰显了英伟达在推动AI领域开源浪潮中的积极作用,也为全球AI生态的构建奠定了坚实基础。