【ITBEAR】近期,NVIDIA的新一代旗舰AI芯片Blackwell遭遇了在高密度服务器部署中的过热难题,这一挑战可能会对其交付时间表造成影响。据行业消息透露,当Blackwell芯片被部署在装备72颗处理器的服务器机架内时,会出现显著的过热现象。这些服务器机架的功耗预计可达120千瓦,而过热不仅限制了GPU的性能发挥,还存在损坏硬件组件的风险。
面对这一状况,NVIDIA方面通过其发言人对外界进行了回应。发言人表示,NVIDIA正与各大云服务提供商紧密合作,将这些合作伙伴视为工程团队和流程中不可或缺的一环。发言人强调,工程的迭代过程是正常且符合预期的,将GB200这一尖端系统融入各种数据中心环境,需要与客户共同设计,协同推进。
尽管面临技术挑战,但NVIDIA的AI芯片市场需求依然强劲。目前,全球近90%的市场份额仍牢牢掌握在NVIDIA手中。公司方面表示,目前众多客户正积极争取GB200系统的市场先机,这无疑是对NVIDIA技术实力和市场份额的有力证明。
事实上,Blackwell芯片的交付延迟并非首次因设计问题而引发。早在今年3月,NVIDIA就推出了Blackwell芯片系列。然而,年中时市场便传出Blackwell存在架构设计隐患的消息。针对这一问题,NVIDIA在今年10月晚些时候通过其CEO黄仁勋对外表示,在台积电这一长期合作伙伴的帮助下,Blackwell AI芯片的设计缺陷已经得到修复。
黄仁勋当时预计,Blackwell芯片将在第四季度开始发货。然而,根据目前的最新预计,经过改良的Blackwell GPU最快也要等到明年1月底才能正式出货。这一延迟无疑给期待这款旗舰AI芯片的用户和市场带来了不小的遗憾。