设想一下,如果北京市600多万机动车保有量的交通出行没有有效的运营指挥与管理,那会形成什么景象?恐怕带来的不仅是拥堵,大规模的交通违章与事故也在所难免。
与此类似,数字世界的IT运维如同城市的智慧交通管理,目的要确保高质量、高效率的业务系统运行,提高服务可用性。然而理想很丰满,现实很骨感。
和现实中市民时常遇到交通堵塞时产生的抱怨一样,在线上IT业务出现不稳定、甚至宕机时,运维人员的噩梦也就来了,业务人员指责、领导不满再正常不过。
如何改变这一现状,运维人员渴望喝着咖啡搞运维,而不再是不断奔波救火。其实为了实现这一目标,业内进行了诸多探索。从最早的人工命令行运维到系统化工具运维,再到自动化运维,可以说,运维的自动化程度在不断升级。不过,这离运维人员要达到的目标还有很长的距离。
数字化运维之难
之所以说离喝着咖啡搞运维的目标还有很远,是因为现实中数字化运维面临诸多难题,说起来这和交通治理难题很像。
首先以运营来说,数据分散在各个运维系统中,未进行统一的管理,一个个“烟囱”的树立在企业很是常见,这也就导致运维数据的价值未能充分利用;其次在运维方式上,各个部门使用各自运维工具,“七国八制”现象严重,未能实现多部门运维能力的共享,更谈不上统一监控运维;第三在运维手段上,传统的运维工具和方法都只能在故障发生时发出告警并进行提醒,“事后诸葛”无法最大化运维的价值。
如何消除这些难题,Gartner曾提出AIOps理念,目的是利用机器学习、AI等技术提升运维的智能化水平,甚至是“无人值守”。怎么去实现?一个践行AIOps理念的统一运维平台尤为重要,华为就推出了这样的平台。
华为I‧MOC将运维推向智能
面向新技术、新场景和新应用的运维创新,是未来数字化转型的必然选择。为此,华为I‧MOC(Intelligent Maintenance and Operation Center)统一运维平台,以“监、管、控、营、服”五大智能运维管理体系,带来全新的“可视、智能、易用”运维体验,并将运维能力推向智能化水平。
首先来说,为什么华为I‧MOC能将运维推向智能?
华为I‧MOC包含了“监、管、控、营、服”五大能力,具体有eWatch集中监控平台、eCMDB配置管理系统、eOps统一操作自动化平台、eSee运维数字化平台和eTicket工单服务系统。
“管”把所有资源进行统一登记,打破烟囱,不同于传统的孤立和单点式运维,I‧MOC构建了覆盖机房、基础设施、网络、数据、应用、安全的一体化运维体系。eCMDB实现了配置实时动态更新,并打造了按需随享、高性能、高质量的配置可视数据服务,让配置像云一样按需随享。
“监”实时把握IT资源运行状况,运维监控中心全局查看所有对象的告警状态。“告警查看”深入分析告警详细情况,“性能看板”实时更新对象运行状态,“运维监控场景”实现对象关系图形定义和实时数据绑定到拓扑……总之来说,eWatch运维集中监控平台实现了7*24H无缝值守,秒级告警监控,极速性能感知,故障自动通知,智能修复自愈。
“控”和“服”处理运维产生的问题:eOps统一操作自动化平台实现可编程、可配置、自主调度执行,通过标准化的开发框架及服务API,支撑外围丰富的应用生态圈;eTicket工单服务系统结合ITIL、DevOps理念,内置符合日常运维工作需要的流程场景,支持根据实际维护需求进行流程自定义调整,提升流程处理的协作能力。
"营“把所有资产、资源的使用状况、运行状况以及健康状况集中可视化展示。如同面向运维管理人员的“驾驶舱”,eSee运维数字化平台拉通各维度运营数据,打破互联信息孤岛,提供可视化、自动化、智能化的运维数字化服务,实现“毛细血管级”的资产运维数字化,让运维人员做到心中有数。
其次,为什么说华为I‧MOC带来了全新运维体验?
华为I‧MOC构建了统一在线可视化平台,实现全网资源实时可视;通过建设专业智能平台,固化专家经验、流程,I‧MOC实现“机器”运维“机器”,从而解放人力;I‧MOC还内置了20+类标准,支持业务拖拽式“私人定制”,提升易用水平。
其中尤其在“机器”运维“机器”方面,I‧MOC通过在高度完善的运维自动化基础之上,通过机器学习不断从运维大数据如日志、监控信息、应用信息等中提炼和总结规则,进而做出智能化的分析决策达到运维系统的整体目标,以机器自判、自断和自决提升智能运维水平,这也是实现AIOps的关键能力支撑。
华为将三十年运维经验能力复制到更多企业
将运维推向智能,并带来全新运维体验,华为为什么能做到?这离不开多年实践经验中的沉淀。
伴随华为自身的发展历程,从人拉肩扛的救火式运维,到分散式运维,到自动化、平台化运维,到服务化、数字化运维,华为积累了丰富的运维转型经验。当前,华为运维支撑了全球200多个数据中心、5万多个机柜、30万台服务器、1000+PB的数据、百万级VM和多个异构云环境,800多项业务的正常运转,使得人机维护比达到1:8000,用“喝着咖啡搞运维”来形容一点都不为过。
现在,华为将这些实践经验沉淀开放出来,并运用于客户运维场景中。例如,某客户通过部署华为I‧MOC运维平台,将全局14套网管平台整合到一个统一运维平台中,统一接入的设备数量超过10万,实现自动告警和派单,运维效率提升3倍。
在运维能力提升过程中,最为重要的是,运维体系需要伴随数字化转型不断同步与升级,否则又容易出现运维之痛的循环。如今AIOps概念的诞生,就是伴随智能技术的发展应运而生,但实现AIOps运维,需要有足够的技术实力、资源和数据锤炼。而业内像华为这样有着庞大的业务和资源体量的企业少之又少,所以,华为能够将三十年运维实践经验复制到更多的企业,让运维难题迎刃而解。