在人工智能领域的激烈竞争中,英伟达这位行业巨头正面临着一系列新兴挑战者的冲击,尤其是在2025年,AI算力市场的风向似乎正在悄然转变。
近年来,AI行业的焦点逐渐从模型训练转向了模型推理。这意味着,对于能够高效处理推理任务的基础设施需求正在不断上升。OpenAI的o1和o3模型,以及Google的Gemini 2.0 Flash Thinking等前沿技术,都在通过强化推理策略来提升训练后的结果质量。与此同时,训练好的大模型需要通过推理才能在实际场景中发挥作用,随着AI技术在各行各业的深入应用,AI工作负载的结构也在发生变化。
以OpenAI的Sora为例,它的创建代表了AI训练阶段,而当用户利用Sora生成一段视频时,则构成了一个推理工作负载。简而言之,大规模训练是技术的“研发阶段”,而推理则是技术的“商业化阶段”。想要在AI领域实现盈利,扩大推理工作负载成为了关键。
根据巴克莱研报的预测,AI推理计算需求将迅速增长,预计其将占据通用人工智能总计算需求的70%以上,甚至可能超过训练计算需求,达到后者的4.5倍。这一趋势为专注于推理的“小”芯片公司提供了巨大的发展空间。
在新的一年里,Groq、SambaNova、Positron AI等初创公司纷纷向英伟达发起了挑战。这些公司专注于推理芯片的研发,试图在英伟达的主场分一杯羹。
Groq由前谷歌TPU团队的成员创办,其AI推理引擎LPU被誉为“世界最快推理”。Groq不仅在推理速度上展示了超群的实力,还以远低于GPU的token成本吸引了业界的目光。2024年,Groq推出了一款名为“猛兽”(Beast)的高性能计算芯片,据称在AI推理任务中的性能超越了英伟达的主流GPU。然而,尽管Groq宣称其LPU在速度和成本上具有显著优势,但也有一些专家对其实际部署成本提出了质疑。
SambaNova则是另一家值得关注的初创公司,其估值已高达50亿美元。SambaNova的RDU芯片结合了GPU十倍以上的片上分布SRAM和适用于大规模计算任务的HBM,实现了极致的算子融合和高HBM利用率。SambaNova不仅销售芯片,还提供从芯片到服务器系统,甚至包括部署大模型的完整技术堆栈。其联创Rodrigo Liang表示,大模型与生成式AI商业化的下一个战场将是企业的私有数据,SambaNova的技术将帮助企业高效、可持续地扩展规模。
相比之下,Positron AI虽然成立时间较短,但也展现出了不俗的实力。Positron推出了一款声称可以执行与英伟达H100相同计算但成本仅为五分之一的推理芯片,并上榜了《2024全球50家最具潜力初创公司榜》。Positron的CEO Thomas Sohmers表示,AI计算开支的重心已经转向推理,并预计这一趋势将继续扩大。
面对这些新兴挑战者的冲击,英伟达似乎并未放慢脚步。英伟达最新推出的B300系列推理大模型芯片,在算力上相比B200提高了50%,显存也从192GB提升到288GB。B300将有效提升大模型的推理性能,降低推理成本,并提高模型能力。
然而,半导体行业的“牧本周期”表明,芯片类型总是在通用和定制之间不断交替。当前,英伟达所代表的通用结构时代正处于被颠覆的边缘。英伟达的业务范围早已不仅限于AI芯片,它在云计算、5G电信、游戏、汽车等领域都有布局。2025年上半年,英伟达还将发布其最新一代人形机器人芯片Jetson Thor。
在这样的背景下,对于新兴挑战者而言,与其想着干掉英伟达,不如专注于做英伟达之外的事,寻找属于自己的发展空间。