【ITBEAR】9月25日消息,随着技术的飞速发展,国内大模型企业正迈向一个全新的时代——十万卡时代。近日,百度、阿里云等科技巨头相继宣布,在AI大模型领域取得重要突破,成功部署支持十万卡级别的大规模集群,这标志着中国在AI算力方面迈出了坚实的一步。
百度发布的百舸AI异构计算平台4.0,专为部署十万卡大规模集群而设计。据百度智能云事业群总裁沈抖介绍,该平台在万卡集群上实现了有效训练时长占比高达99.5%以上,通过一系列技术创新,大幅提升了模型训练效率,整体性能相比业界平均水平提升了30%。这一成就不仅彰显了百度在AI技术方面的深厚底蕴,也为中国大模型企业的发展注入了强劲动力。
与此同时,阿里云也宣布其灵骏单网络集群已扩展至十万卡级别。阿里云CTO周靖人透露,他们的万卡算力集群可以实现连续训练有效时长大于99%,模型算力利用率提升20%以上。这些数据显示出阿里云在AI算力领域的强大实力和持续创新的精神。
据ITBEAR了解,十万卡集群的部署不仅面临着巨大的资金成本挑战,还需要克服诸多技术难题。GPU的敏感性和大规模集群的故障率问题是其中之一。此外,大模型训练过程中的网络传输能力也是一个不容忽视的挑战。然而,国内大模型企业通过不断的技术研发和创新,正逐步攻克这些难题,展现出令人瞩目的进步速度。
值得一提的是,中国大模型企业在发展过程中还面临着特殊的困难,即无法完全依赖国外芯片方案。因此,国内企业需要在使用包括国产GPU在内的异构芯片方面下功夫,以确保在算力规模上能够与美国企业相抗衡。这一挑战也催生了国内芯片产业的快速发展和技术创新。
然而,随着大模型性能的提升,成本问题也日益凸显。十万卡集群每天消耗的电力就相当于北京市东城区一天的居民用电量。因此,如何在保证性能的同时降低成本,成为大模型企业需要思考的重要问题。阿里云方面表示,他们将通过降价带动应用爆发,并着眼于长远发展,不仅仅局限于眼前的利益。
总的来说,国内大模型企业在迈向十万卡时代的道路上取得了显著的进展。他们通过技术创新和持续努力,正逐步克服各种挑战,展现出强大的发展势头。未来,我们有理由期待这些企业在AI领域取得更加辉煌的成就。
#AI大模型# #十万卡时代# #百度百舸# #阿里云灵骏# #算力挑战#