近日,美国人工智能芯片初创企业Groq宣布成功从沙特阿拉伯获得高达15亿美元的融资,这笔资金将用于扩展其位于沙特的人工智能基础设施。
据悉,Groq已在沙特阿拉伯达曼设立了中东地区最大的推理集群,该集群包含19000个Groq LPU(语言处理单元),并于2024年12月迅速上线运行。这一举措展现了Groq在人工智能领域的雄心壮志。
在沙特阿拉伯利雅得举行的LEAP 2025活动上,Groq的首席执行官兼创始人乔纳森·罗斯宣布了这一融资消息。他表示,这笔资金将主要用于提高LPU的产量,同时也有可能用于将设计迭代到更先进的制造工艺节点,以及开发更多样化的AI处理器。
Groq自2016年成立以来,便以其独特的技术和强大的团队实力在AI芯片领域崭露头角。其核心团队源自谷歌最初的张量处理单元(TPU)工程团队,拥有丰富的研发经验和技术积累。创始人兼CEO乔纳森·罗斯更是谷歌TPU项目的核心研发人员之一。
2024年2月,Groq推出了全球首个基于LPU方案的大模型推理芯片——Tensor Streaming Processor (TSP)。这款芯片采用全新的TSA架构,旨在提高机器学习和人工智能等计算密集型工作负载的性能。尽管它并未采用高昂的尖端制程工艺,而是选择了14nm制程,但凭借自研的TSA架构和高度并行处理能力,Groq LPU芯片仍然展现出了卓越的性能。
据官方数据显示,Groq的LPU芯片可提供高达1000 TOPS(每秒万亿次运算)的计算能力,并且在某些机器学习模型上的性能表现比常规的GPU和TPU提升10到100倍。该芯片还集成了230MB容量的SRAM来替代DRAM,以保证内存带宽,其片上内存带宽高达80TB/s。
在实际应用中,基于Groq LPU芯片的云服务器在Llama2或Mistreal模型上的计算和响应速度远超基于NVIDIA AI GPU的ChatGPT。据Groq表示,其LPU芯片每秒可以生成高达500个token,而ChatGPT-3.5的公开版本每秒只能生成大约40个token。这意味着Groq LPU芯片的响应速度达到了NVIDIA GPU的10倍以上。与其他云平台厂商相比,基于Groq LPU芯片的云服务器的大模型推理性能也实现了显著提升。
在能耗方面,Groq LPU芯片同样表现出色。英伟达GPU需要大约10到30焦耳才能生成响应中的tokens,而Groq LPU芯片仅需1到3焦耳。这意味着在推理速度大幅提升的同时,其能耗成本仅有英伟达GPU的十分之一,性价比提高了100倍。
Groq的策略是使用光纤互连将数百个LPU拼接在一起,每个LPU都装有片上SRAM。通过使用576个LPU的集群,Groq声称能够在meta的Llama 2 70B模型上实现每秒超过300个令牌的生成速率,是具有8个GPU的HGX H100系统的10倍,同时消耗十分之一的功率。
在演示中,Groq展示了其芯片的强大性能,支持多种模型,如Mistral AI的Mixtral8x7B SMoE以及meta的Llama2的7B和70B等。这些模型支持使用4096字节的上下文长度,并可直接体验Demo。Groq还表示,其LPU推理芯片在第三方网站上的售价低于NVIDIA H100,进一步彰显了其性价比优势。
值得注意的是,尽管Groq的LPU芯片性能卓越,但它同样受到了美国出口管制政策的影响。不过,据路透社报道,Groq已获得必要的许可证以向沙特阿拉伯出口其产品。