在近日由中国信息通信研究院主办的“GOLF+IT新治理领导力论坛”上,阿里云正式揭晓了其全栈AI负载高可用架构,这一创新方案旨在满足AI大模型在企业级应用中对于云服务处理能力的严苛要求,特别是在大规模参数量、复杂结构以及高性能算力背景下,确保可扩展性、服务连续性、服务质量和快速故障恢复。
阿里云此次发布的架构,核心目标是为生成式AI提供持续卓越的用户体验。具体而言,该架构能够实现GPU故障预测准确率高达92%,在千卡规模集群中,连续训练的有效时长超过99%,同时支持秒级模型自动保存和分钟级故障恢复。它还具备每分钟扩展10000个pod的能力,实现分钟级自动扩容,以及核心模型服务99.99%的API SLA,确保模型应用服务的全链路可观测性。这些特性在大规模数据处理和训推场景下,为Gen AI应用的业务连续性、响应速度、稳定性和安全性提供了全面保障。
在论坛期间,2025年中国数字化治理领域的最新评估结果也同步揭晓,阿里云凭借出色的表现,成为首批通过信通院“企业用云治理能力成熟度评估”的两家企业之一,并荣获该项评估的最高等级。这一荣誉不仅是对阿里云在云治理能力上的认可,也体现了其在推动企业数字化转型方面的卓越贡献。
随着AI算力需求的不断增长,以GenAI为代表的应用场景和技术正以前所未有的速度发展。云上企业需要处理的数据量呈指数级增长,AI驱动的应用在高负载环境下对业务连续性、响应速度、稳定性和安全性提出了更高要求。阿里云在升级云平台技术服务能力的同时,将GPU、异构算力集群、容器集群、存储、向量数据库、机器学习平台等全面融入云平台架构设计,构建了全栈AI负载高可用架构。
在高可用模型训练方面,阿里云将AI基础设施的高可用能力融入云服务整体架构设计,通过基于AI算法的故障预测,实现训推环节的性能瓶颈分析和潜在故障分析。GPU故障预测准确率高达92%,同时接入异常预测自愈链路,训练恢复自愈率超过90%。CPFS高性能存储集群在超大集群中具备20TB/s的吞吐能力,支持更大、更频繁的Checkpoint读写,有效防止数据丢失,提升训练的稳定性和可靠性。阿里云自研的高性能网络则采用业界首创的双平面高可用网络架构,确保网络Link和设备中断时,训练任务不中断。
在推理资源方面,阿里云容器计算服务ACS的弹性扩展能力每分钟可完成10000个pod的扩展,实现分钟级自动扩容。PAI-EAS模型在线服务适用于多种AI推理场景,包括实时推理和近实时异步推理,能够感知每个请求的执行进度,实现更公平的任务调度,提高扩缩容效率。同时,阿里云将跨区域的主动式重路由技术应用于数据中心间通信,达到跨域带宽业界最高的99.995% SLA,实现秒级内重新路由,提供稳定的网络通信延迟。
对于实时语音交互、实时AI搜索等高性能场景下的推理需求,阿里云百炼模型服务平台基于预训练模型为用户提供模型推理与应用构建托管服务。核心模型服务API的SLA达到99.99%,高性能场景核心用户用例中的首包延时小于300毫秒,有效解决应用开发、模型调用过程中的跨区域TPM限制和高并发需求下API响应变慢等问题,提升用户体验。
在数据高可靠方面,阿里云数据存储与数据库服务针对不同计算引擎和多种AI框架进行了深度集成,形成了承载PB级甚至EB级大规模数据的统一存储底座。同城冗余容灾能力高达99.995% SLA,数据多副本冗余、大文件断点续传、批量和多线程数据操作确保数据服务的高可靠性。这一架构支持面向单AZ、双AZ、三AZ及跨Region的高可用服务,实现跨Region AI数据的就近读写和负载均衡,满足AI数据多活的强一致性要求。
在AI时代的浪潮中,阿里云不仅通过全栈AI负载高可用架构为企业奠定了坚实的技术基础,还致力于与用户共同构建一个AI-Native的智能化、自动化和可持续的IT治理体系。阿里云推出的卓越架构Well-Architeched framework旨在帮助企业在云上构建一个安全、稳定、高效的应用环境。该框架根据云计算的弹性、实时交付和自助化等特点,进一步升级了用云企业运维管理和治理规则基线的最佳实践。
阿里云开放平台负责人表示,构建可靠的系统是云厂商与用户共同的责任。云厂商负责提供云平台的可靠性,确保云服务可用性符合或超过阿里云服务等级协议;用户则需要根据业务需求选择合适的产品服务,并根据云相关文档的指导搭建高可用架构,确保云上应用的可靠性。在AI迅猛发展的背景下,企业应让业务系统利用现代云平台的基础设施达到高可用,实现面向失败的设计架构、面向精细的运维管控以及面向风险的应急快恢。
阿里云在企业用云治理能力方面取得了显著成就。根据信通院发布的《企业用云治理能力成熟度分级要求》,阿里云测评结果为L4+,这是目前阶段云服务提供商实际获得的最高等级。此前,阿里云的企业用云治理能力已多次获得信通院的认可,并联合埃森哲发布了《云治理企业成熟度发展2024年度报告》。该报告基于400多家企业客户的调研数据,旨在帮助用户理解云治理概念、企业用云实践的现状及变迁趋势,并为面向AI时代的IT新治理和云上架构优化提供参考与决策依据。