ITBear旗下自媒体矩阵:

马斯克先行一步,国产大模型集体冲刺十万卡集群?

   时间:2024-09-25 21:15:15 来源:ITBEAR作者:杨凌霄编辑:瑞雪 发表评论无障碍通道

【ITBEAR】9月25日消息,国内大模型企业是否即将迈入十万卡时代?这一话题近期备受关注。随着百度发布全面升级的百舸AI异构计算平台4.0,以及阿里云和腾讯相继宣布其集群已拓展或支持至十万卡级别,这一设想似乎正逐步成为现实。

百度智能云事业群总裁沈抖直言,百舸4.0专为部署十万卡大规模集群而设计。与此同时,阿里云也宣布其灵骏单网络集群已达到十万卡级别,而腾讯此前也发布了支持十万卡集群的星脉网络2.0。这一系列的动态,使得十万卡集群突然成为舆论的焦点。尤其是在9月初,马斯克宣布在短短122天内建成了10万张英伟达H100显卡的Colossus集群,其算力可能已超过OpenAI,这一消息更是引发了广泛关注。

由显卡规模撑起的算力水平,是衡量大模型性能的重要指标之一。一般认为,拥有1万枚英伟达A100芯片,是做好AI大模型的算力门槛。然而,建一个万卡集群,单是GPU的采购成本就高达几十亿,因此国内能够部署万卡规模集群的,原本就只有阿里、百度等寥寥几家大厂。想要部署十万卡集群,其资金和技术挑战可想而知。

除了资金成本,十万卡集群同样面临巨大的技术挑战。沈抖指出,GPU是一种非常敏感的硬件,连一天之内气温的波动,都会影响到GPU的故障率,而且规模越大,出故障的概率就越高。此外,大模型训练过程需要全部显卡同时参与并行计算,这对网络传输能力也提出了更大的挑战。

据ITBEAR了解,相比于美国同行,中国大模型企业还面临一重特殊的困难,即无法像马斯克那样全部采用英伟达方案,而是需要使用包括国产GPU在内的异构芯片。这也意味着,即使同样拥有十万张显卡,国内企业在算力规模上也很难与美国企业匹敌。

然而,在上述三重挑战之下,国内大模型企业的进步速度也有目共睹。沈抖介绍,百舸4.0在万卡集群上实现了有效训练时长占比99.5%以上,业界领先,并通过一系列创新大幅提升了集群的模型训练效率。而阿里云CTO周靖人也透露,目前阿里云的万卡算力集群可以实现大于99%以上连续训练有效时长。

但随着性能提升,大模型成本问题也越来越引人注目。沈抖透露,十万卡集群每天就要消耗大约300万千瓦时的电力,相当于北京市东城区一天的居民用电量。尽管在过去一年中大模型厂商的降价幅度确实可观,但这更多是平台补贴开发者的结果,并非根本解决之道。对此,阿里云方面强调,AI发展仍然处在一个非常早期的阶段,必须要靠降价带动应用爆发。

关键词:#国内大模型企业#、#十万卡集群#、#算力挑战#、#技术进步#、#成本问题#

举报 0 收藏 0 打赏 0评论 0
 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  网站留言  |  RSS订阅  |  违规举报  |  开放转载  |  滚动资讯  |  English Version