【ITBEAR】9月21日消息,在近日盛大开幕的2024云栖大会上,阿里云向外界展示了其飞天企业版的最新智算升级成果。此次升级将智能计算能力深度整合至专有云平台内,实现了对通用算力、超级计算以及智能计算的一网打尽式调度管理,从而有效响应了政府和企业客户在“云+AI”协同发展方面的迫切需求,为人工智能在政企市场的广泛落地提供了坚实的技术支撑。
飞天企业版,作为阿里云专为政企客户量身打造的云平台解决方案,自2014年问世以来,已成功助力逾千家大型政企客户实现数字化转型,其深耕领域遍布金融、政务、能源、电力及交通等多个关键行业。该平台与阿里云公共云共享同一套技术架构,确保了客户能够享受到一致且卓越的服务体验。
据ITBEAR了解,随着大型AI模型的迅猛发展,政企市场对于算力的需求正经历着前所未有的变革。在此背景下,如何对不同架构的GPU芯片进行统一管理和高效调度,已成为业界普遍面临的挑战。同时,在并行计算性能上,现有GPU服务器和集群的实际运算效率与理论值之间仍存在显著差距,亟待提升。
阿里云飞天企业版针对这些痛点进行了全面的智算升级。在异构算力池化层面,通过精细化的GPU虚拟化和容器调度技术,该平台成功将算力切分粒度控制在了1%的惊人水平,从而实现了资源利用率的翻倍提升。此外,借助训推一体化的资源调度策略,飞天企业版有效减少了算力资源的碎片化问题,降幅高达30%。
在推理场景的性能优化上,飞天企业版同样取得了显著进展。通过改进GPU推理调度算法,该平台能够在单机多卡并行训练中智能选取最佳通信链路,从而将通信带宽提升至上限的两倍。同时,基于拓扑感知的资源调度技术使得模型吞吐量提升了23%。而针对GPU的深度调优工作以及对显存、算子和编译技术的专项优化,则进一步将GPU性能相较于社区版提升了10%。
除了上述技术突破外,飞天企业版还在系统稳定性方面展现出了强大的实力。该平台提供了一体化的监控和分析诊断功能,能够针对故障节点及受影响的作业路径进行分钟级的快速定位和诊断,整体故障监控覆盖率高达80%。
值得一提的是,智能升级后的飞天企业版还引入了AI Studio平台和运维大模型两大新功能板块。AI Studio在全面兼容国产硬件的基础上,为用户提供了从模型训练、微调到测评的一站式服务,并内置了丰富的行业应用插件,以简化大模型的构建和发布流程。而运维大模型则基于通义千问进行构建,并结合了海量的运维专业知识和数据训练而成,旨在将日常运维效率提升50%。
阿里云智能集团副总裁、专有云总经理刘国华在大会上表示:“飞天企业版在过去十年的演进中,始终离不开广大客户的信任与支持。面对AI时代的新挑战和新机遇,我们将继续坚守对政企市场的承诺,致力于为他们打造AI时代最为开放的云平台。”
#阿里云# #飞天企业版# #智算升级# #云栖大会# #AI时代#