对于当前航空业面临的海量实时业务数据监测与分析挑战,云智慧推出了一种基于业务系统日志数据,使用实时流式数据采集、大数据处理和人工智能技术实现海量日志数据智能化分析的解决方案,帮助IT运维人员实时、动态发现业务及IT系统存在的故障和异常,快速定位问题根源,保障航司业务持续、稳定和高效运行。
挑战与需求
随着航空及上下游服务产业链的快速发展,系统多、架构复杂、新旧业务系统长期共存,持续产生的海量日志数据缺乏有效的处理手段,对IT运维和运营带来极大的风险与挑战。
以民航为例,旅客选择飞机出行需要经历订票、值机、登机等一系列流程,每种业务处理都要跨越多个平台的应用系统,每个系统都会实时输出日志数据记录当前应用运行情况,上述流程中任何一个应用的故障或者性能问题都会影响乘客出行。
如何实时了解业务的整体运行状态,如何基于海量、实时的应用日志分析快速确定业务运行异常及潜在风险,如何根据业务量变化动态确定业务异常标准,如何针对当前业务中的异常情况及时预警,如何实现日志数据与其他运维监控数据的融合分析和查询,快速、准确定位业务及系统的故障,这都是日志智能分析平台需要解决的难题。
云智慧日志智能分析解决方案及平台架构
云智慧海量日志智能分析解决方案包括系统日志数据的实时采集、传输、集群化的消息队列、预处理组件及实时流式大数据处理,完成日志数据的解析、转换、脱敏、业务逻辑处理后,以结构化数据保存在分布式存储系统中,然后调用算法集之中的一种或多种算法组合进行多场景的智能分析、告警及可视化展示,同时提供数据API满足其它数据深入挖掘和探索需求。
海量日志智能化分析平台架构如下图所示:
方案特色和优势
云智慧日志智能化分析平台解决方案为航空业务运行的连续性、用户体验的提升和业务的高效运维提供了可靠的技术支撑,此方案具有如下优势:
1、丰富的日志数据实时采集
• 支持自有高性能采集器,兼容主流开源数据采集器、灵活水平扩展的数据接入接口,快速接入流式数据;
• 超高的吞吐量和极小的响应时间,数据接入即可秒级查询;
2、高性能、动态扩展数据处理平台:内置数十种处理组件,支持可视化处理pipeline及单步处理结果验证、处理结果采用列式存储、线性存储扩展。平台具备实时流式数据处理能力,满足航空业海量日志数据实时处理和智能分析的严格要求:
• 支持根据数据量进行水平伸缩,数据处理能力:40T/天,EPS:130万/秒。
• 支持多个节点同时写入,写入速度:60万条/秒/节点,同等条件下,写入速度比Elasticsearch快10倍以上;
3、多场景智能分析平台能力
• 算法平台基于最新架构和人工智能算法,具备强大的智能化分析能力,为上层业务提供算法支撑和扩展。
• 内置多个智能分析场景,包括日志智能搜索及上下文分析、日志模式自动识别、基于算法的智能异常检测、智能告警及指标告警对接、日志与应用性能监控、基础监控数据的融合关联分析等。
方案价值
基于海量日志数据的云智慧智能日志分析方案已经在航空、金融、能源等行业的智能运维项目中成功实施,实践证明此平台能给行业客户带来明显的改善和提升:
1、实现离散日志的统一采集、处理、存储、归档以及查询,极大提升日志管理和分析的便捷性;
2、基于实时日志数据智能分析帮助业务人员及时掌控业务运行状态,快速发现业务运行的异常并及时报警,减少业务中断时间;
3、基于业务日志数据、应用性能监控数据、基础资源监控数据的融合分析,实现复杂线上业务及系统问题原因的快速定位,提升复杂问题处理的效率。
客户案例实战
某航空企业的主营业务是面向航司及上下游服务商,提供业务处理、电子分销、结算清算等服务,当出现性能缓慢或中断时,现有监控系统无法有效定位故障和异常。
针对此用户需求,云智慧为该企业构建了基于海量实时业务日志数据的业务运维智能分析平台,通过对业务数据的实时采集、处理、多维度智能分析,及时发现系统业务层面异常情况,增强该航空客户业务预警、故障诊断与智能分析能力。
此平台多次提前发现业务处理响应时间变长、业务指令交互错误率增加等故障先兆,基于智能分析算法对即将发生的异常作出预测和及时告警,从而有效避免故障的业务风险。
总结和展望
云智慧日志智能分析平台基于AIOps策略,融合基础资源监控、应用性能监控、用户体验监控等多维度运维数据和人工智能分析算法,能够及时发现业务运营中潜在风险,辅助管理人员作出准确判断和决策,实现对业务运营健康及未来发展趋势的持续洞察,增强企业核心竞争力。