埃隆·马斯克的人工智能企业xAI近日宣布了一项雄心勃勃的计划,即在美国田纳西州的孟菲斯市建造一台规模空前的超级计算机。据内部文件透露,该公司正斥资数亿美元推进这一项目,然而,一个巨大的挑战正摆在他们面前——电力供应不足。
自2024年6月项目公开以来,xAI已向孟菲斯规划与发展机构提交了多达14份建筑许可证申请,涉及电气、机械、管道等多个工程领域,预估总成本高达4.059亿美元。其中,一项价值3000万美元的工程专门用于计算机设备的安装,另一项390万美元的工程则是建造防撞围栏。
马斯克曾表示,他希望将孟菲斯超级计算机Colossus的规模扩大十倍,以容纳100万个GPU。然而,根据文件显示,xAI无法从当地电网获得足够的电力来支持这一庞大的计算需求。除非xAI能够在项目现场自行建设发电设施,否则他们将面临电力短缺的困境。
为了应对这一挑战,xAI已经向孟菲斯照明、天然气和水处理公司(MLGW)申请了300兆瓦的电网电力,并成功获得了150兆瓦的供电许可。同时,xAI还在考虑在超级计算机项目现场安装天然气涡轮机来发电。不过,xAI表示,能否全部使用300兆瓦的电网电力还取决于该地区的基础设施升级和输电网络的改善。
目前,xAI正在使用卡特彼勒子公司Solar Turbines的燃气发电机来补充电力供应,这些发电机的总发电能力为250兆瓦。然而,即使有了这些额外的电力供应,xAI仍然难以满足其庞大的计算需求。在许可申请中,xAI明确表示:“如果没有额外的现场发电,我们无法满足客户需求。”
田纳西河谷管理局(TVA)负责为田纳西州大部分地区及周边六个州的部分地区供电。面对xAI等企业的电力需求增长,TVA在今年2月表示,计划在未来几年投资160亿美元来满足历史性的负荷增长。然而,TVA的发言人表示,其董事会需要审查并批准任何超过100兆瓦的新负荷,以确保电力系统的可靠性得以维持。
加州大学河滨分校电气与计算机工程副教授任绍磊认为,凭借自主现场发电能力,xAI可能能够为一定数量的英伟达H100 GPU提供电力。然而,如果xAI想要进一步扩大算力,将面临巨大的挑战。根据任绍磊的计算,运行100万个GPU可能需要超过1千兆瓦的电力,这是xAI目前在孟菲斯可获得电力的四倍。