数智时代,数据是金融机构经营的核心资产和最重要战略资源,也是不可或缺的生产要素。只有更好的管理、分析业务/IT系统产生的各种数据,才能从中洞察更大的业务价值,持续优化用户体验,而运维数据治理就是挖掘数据价值的基础和重要手段。
亟需运维数据治理
复杂的业务系统,海量的IT/业务数据,以及新架构、新技术的广泛应用,运维管理面临更大挑战。
第一,缺少统一的告警中心:各种监控系统相互独立没有关联,告警事件内容不同、运维人员也不同,无法快速判断故障根源,因多个监控系统的告警事件扰乱对故障问题的正确快速定位。
第二,缺少统一的监控中心:监控对象的逻辑拓扑或物理拓扑没有关联起来,当问题发生时,需要在不同层面的监控工具中排查,问题的快速发现、快速定位、快速解决带来了诸多不确定性,从而影响到用户体验和SLA。
第三,缺少统一的评价体系:监控对象都有独立的评价标准,而这些标准缺少统一性,导致运维人员没有指标体系的参考依据,缺少对系统整体运行健康度进行管控,同时无法制定出统一的故障预警管理策略。
运维数据治理的原则
第一,统一数据维度:不同监控系统的告警信息进行有效的关联、收敛、压缩,统一定义告警和事件级别,以及对应的处理(通知)流程;打通运维工具间的数据孤岛,将全部运维监控工具产生(采集)的数据进行统一的处理和存储。确保每个业务系统的每个监控指标都有唯一的、定义明确的数据来源。
第二,提升数据质量:不同监控系统的数据源进行数据标准的重定义,依据国家、业界或者监管机构的标准,再结合自身的实际情况对数据进行规范化处理;一般包括格式、编码规则、字典值等,将处理后的多源异构的运维数据进行统一的存储与关联分析,从而提升运维数据的质量。
第三,确保数据实效性:运维数据往往存在大量的重复和冗余,同一个事件可能导致大量重复的指标、告警、日志等。通过过滤、降噪和聚合,把具备历史分析价值的数据流转到数据湖中进行分析,这不仅会节省时间,而且也能够节省冗余数据的存储和计算成本。
运维数据治理的目标
通过建设一体化的统一监控平台,可以帮助IT部门实现运维数据的三个统一:
第一,统一标准:实现运维数据处理规范中对数据采集、处理、存储、展现的标准统一;实现运维事件和告警处理流程规范中对事件级别定义,处理流程定义、通知内容定义的标准统一;实现监控指标定义中的SLO(服务等级目标)指标选取。
第二,统一数据:元数据管理可以清晰展现数据从哪来,属于谁,让运维人员或者系统能够更好地理解所获取的数据,同时通过统一的存储与关联分析将多源异构数据彻底打通。
第三,统一服务:用户通过统一的服务接口(GUI/API)消费运维数据和功能。主要包括:数据呈现(大屏和仪表板)服务、数据分析服务(数据建模和查询)、监控指标异常检测服务、监控告警通知订阅服务等。
运维数据治理解决方案
云智慧运维数据治理解决方案支持PB级、多种数据的采集、分析、存储和管理,包括海量结构化数据、半结构化数据和非结构化数据,且具备线性的横向扩展能力。
运维数据的统一采集
通过并行多任务采集,提高数据采集效率及准确性,支持各类数据源(日志、监控、业务、配置等)的配置信息录入、查看、修改,并提供各类数据源的数据样例展示。支持HTTP、Kafka、API、日志、文本、数据库、自定义等多种方式数据接入,数据采集接口程序规范统一,同时具备监控接口采集效率、统计采集数据量的能力。
运维数据的统一处理
高效数据处理机制:采用高性能混合存储模式,非实时数据存储全量数据,实时数据在全量数据的基础上实现增量存储,相对于其它传统的数据存储查询方式,存储效率提高300倍。
可视化数据处理过程:数据处理提供图形化操作界面,实现自助式数据分析与挖掘算法模型创建。整个数据处理过程,支持通过Web界面进行编辑,无需编辑程序代码或Shell脚本,即可完成数据处理的复杂操作。
数据集成与ETL:提供数据集成实施和服务功能,从ETL 数据导入到SQL查询以及全文检索的一站式图形化工作流,支持分布式的海量日志采集、聚合和传输。
运维数据的统一存储
基于几个核心场景:数据治理、数据集市、数据分析、数据应用等,持多种存储介质和计算模型,同时具备可靠性、可用性、一致性、伸缩性。
1、监控数据存储:时序数据库(ClickHouse、InfluxDB)
2、日志数据存储:Elasticsearch、Hadoop/Hbase
3、分析报表数据存储:MySQL等关系型数据库
4、告警事件数据存储:Redis数据库
运维数据的统一服务
运维数据可以进行按需消费,根据运营和运维的需求,快速敏捷的创建面向特定场景的数据应用,充分释放数据的价值。汇总数据、整合指标体系、制定相应标准,通过PC端、移动端、ECC大屏、Dashboard,数据展示业务健康、IT资源健康、用户体验、安全态势以及问题事件等应用服务。
价值与展望
云智慧运维数据治理解决方案构建了一套完整的IT与业务系统的评价体系,为提高运维效率、优化用户体验、改进服务流程、资产管理、运营决策等方面提供了强有力的支撑。运维数据治理不可一蹴而就,从业务发展、数据治理意识形成、数据治理体系运行、人员组织等需要一个长效机制来进行保障,这样才能让数据资产可以发挥更大的作用。