ITBear旗下自媒体矩阵:

AI大模型算力需求激增,腾讯云如何应对智算集群组网新挑战?

   时间:2024-12-05 15:28:36 来源:ITBEAR编辑:快讯团队 发表评论无障碍通道

在AI技术日新月异的今天,ChatGPT的横空出世无疑为整个行业点燃了一把熊熊烈火。这款在2022年一经发布便迅速吸引全球目光的AI模型,短短两个月内便收获了1亿注册用户,不仅极大地激发了公众对人工智能的期待,也让业界看到了AI大模型技术的无限潜力。

近年来,AI大模型如雨后春笋般不断涌现,据中国信通院数据显示,截至2024年7月,全球AI大模型数量已高达1328个,其中中国的大模型数量占比达到了36%。随着技术的不断进步,模型的研发和应用也从最初的大语言模型扩展到了多模态模型。然而,算力、网络等基础设施的优化仍然是AI大模型赖以生存和发展的关键。

在这个被称为中国大模型“洗牌年”的关键时刻,近日,国内知名AI大模型独角兽MiniMax的副总裁刘华与腾讯云北区云原生总经理田丰接受了包括智东西在内的多家媒体的采访,共同探讨了算力、网络对AI大模型落地应用的影响。

MiniMax,这家成立于2021年12月的公司,被誉为“国产大模型六小虎”之一。自成立以来,MiniMax便致力于自主研发多模态通用大模型,包括万亿参数的MoE文本大模型、语音和音乐大模型、图像大模型以及视频大模型等。基于这些通用大模型,MiniMax推出了智能助手“海螺AI”、AI陪伴产品“星野”“Talkie”等面向C端的应用,并通过其开放平台为企业和开发者提供API服务。

在采访中,刘华从AI大模型公司的角度出发,谈到了多模态大模型在应用过程中所面临的算力成本问题。他指出,随着大模型从处理文本任务扩展到语音任务、视频任务,算力需求急剧增加。如果用token来计算,一个小视频的tokens数量远远超过了一篇文章的tokens数量。因此,为了让新技术落地并让更多企业或个人接受,必须确保大模型能够以高性价比的方式处理大规模的输入或输出。

作为MiniMax的长期合作伙伴,腾讯云自MiniMax成立之初便与其建立了合作关系,为其提供算力、网络等基础设施支持。田丰在采访中分享了这两三年来他对客户需求变化的观察。他表示,大模型公司客户对算力的需求从早期的千卡集群到现在的上万卡,甚至未来可能达到十万卡。这种规模的增长对云服务的组网能力、集群运维都带来了全新的挑战。

特别是在网络方面,田丰强调,训练万亿参数的大模型时,传统的网络协议容易造成拥堵和高延时。0.1%的丢包率都可能导致50%的续训效率下降,中断恢复后需要从上一个续训点继续训练,这对万亿规模的模型训练来说是一个巨大的损失。因此,优化网络传输通讯效率成为了一个亟待解决的问题。

田丰还提到,并不是所有的大模型厂商都需要十万卡的算力,十万卡的训练效率也并不一定大于万卡的训练效率。关键在于优化和调整GPU资源的利用率,以及提高网络传输通讯的效率。只有这样,才能在不断增长的算力需求中保持竞争力。

在AI大模型行业进入淘汰赛阶段的当下,算力、技术、产品都成为竞争的关键要素。中国大模型的“洗牌年”里,大模型公司和云服务厂商都在积极应对挑战,寻求突破。正如刘华在采访中所说:“实践是检验AI的唯一标准。AI大模型是一场长跑,投资人和创业者都需要有信心和耐心。炫酷的技术最终还是要落实到商业化本身,要盈利去赚钱。”

举报 0 收藏 0 打赏 0评论 0
 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  RSS订阅  |  开放转载  |  滚动资讯  |  争议稿件处理  |  English Version