在AI技术日新月异的当下,ChatGPT自2022年横空出世,迅速吸引了全球目光,并在短短两个月内突破1亿注册用户大关。这一壮举不仅点燃了公众对人工智能的无限遐想,更为整个行业指明了AI大模型技术的广阔应用前景。
近年来,AI大模型如雨后春笋,层出不穷。据中国信通院最新数据显示,截至2024年7月,全球范围内已有1328个AI大模型问世(包含同一企业、同一模型的不同参数版本),其中中国的大模型数量占据了36%的市场份额。从最初的大语言模型,到如今的多模态模型,行业对模型的研发与应用正不断向纵深发展。然而,支撑这些大模型生存与发展的基础设施,如算力和网络,仍需持续优化。
在中国AI大模型领域步入“洗牌年”的关键时刻,国内AI大模型领域的佼佼者MiniMax,携手腾讯云,共同探讨了算力与网络对AI大模型落地应用的影响。MiniMax副总裁刘华与腾讯云北区云原生总经理田丰,基于双方公司的深度合作,分享了他们的见解。
MiniMax,这家成立于2021年12月的年轻企业,被誉为“国产大模型六小虎”之一。公司自主研发了涵盖万亿参数MoE文本大模型、语音和音乐大模型、图像大模型以及视频大模型在内的多模态通用大模型。凭借这些技术积累,MiniMax推出了智能助手“海螺AI”、AI内容社区“星野”和“Talkie”等面向C端用户的应用,同时,其开放平台也为企业和开发者提供了丰富的API服务。
在采访中,刘华从AI大模型公司的视角出发,强调了多模态大模型应用过程中算力成本的不断攀升。他指出,随着大模型从处理文本任务扩展到语音、视频等多媒体任务,所需的算力资源也随之激增。以token为单位计算,一个小视频的tokens数量远超一篇文章,这无疑给大模型的性价比带来了巨大挑战。为了让新技术更好地落地,让更多企业和个人接受,必须确保大模型能够以高效且经济的方式处理大规模输入输出。
作为MiniMax的长期合作伙伴,腾讯云自MiniMax成立之初便与其建立了紧密的合作关系,为其提供算力、网络等基础设施支持。田丰在采访中分享了这两三年来对客户需求变化的深刻洞察。他表示,大模型公司客户对算力的需求正在快速增长,从早期的千卡集群到如今的上万卡,甚至未来可能达到十万卡规模。这对腾讯云的组网能力、集群运维都提出了全新的挑战。
田丰特别提到了网络在训练大模型中的重要性。他指出,在训练万亿参数的大模型时,传统的网络协议容易造成拥堵和高延时,即使0.1%的丢包率也可能导致50%的续训效率下降。一旦训练中断,恢复后需要从上一个续训点继续,这对万亿规模的模型训练来说,损失是巨大的。因此,优化网络传输通讯效率,确保训练的连续性和稳定性至关重要。
田丰还强调了资源利用率的重要性。他指出,大集群并不等同于大算力,算力不是靠简单地堆砌GPU资源就能实现的。要提升算力,必须优化GPU资源的利用率,以及网络传输通讯的效率。这既是对云服务厂商技术实力的考验,也是推动AI大模型技术持续发展的关键。
在AI大模型领域,技术与商业化的双重考验正在来临。多模态模型的研发与优化仍在紧锣密鼓地进行中,而应用落地并成功构建商业模式则成为当前的重要任务。中国AI大模型“洗牌年”已经到来,算力、技术、产品都成为竞争的关键要素。在这个充满挑战与机遇的时刻,大模型公司和云服务厂商都在全力以赴,以期在这场长跑中脱颖而出。