数据是数字化转型的基础,缺少数据支撑的数字化蓝图如空中楼阁,难以经受市场的考验。无论是从信息化向数字化迈进的传统企业,还是IT成熟度较高的新兴行业,日志数据都是不可或缺的信息来源,其重要程度不亚于IT监控数据和APM性能数据。而搭建高性能日志分析平台,也是IT部门确保数字业务高效运转的重要手段。
日志数据中记录了丰富的信息,为问题定位和故障预测提供详细的数据,在运维中发挥着重要的作用。通过对日志进行分析,运维人员能够了解服务器、软硬件、用户行为等详细信息,从而快速发现故障原因及时告警或者对未发生的故障进行预警,提升运维的效率。
目前,企业日志数据的应用普遍面临着统一管理、海量日志数据处理、安全合规、数据价值挖掘等挑战:
·日志统一管理:业务系统多、数据离散、日志种类多、字段定义未标准化,无法统一管理;同时日志分散不方便查看、日志搜索操作复杂且效率低。
·海量日志数据处理:在每天TB级以上的数据增量下,传统解决方案的扩展性和稳定性无法保证。
·安全合规:对运维人员的违规操作、系统运行异常、设备故障等安全事件缺乏监控能力。
·日志数据的价值挖掘:日志数据中蕴含大量有价值内容,对数据价值利用不足,仅停留在被动排障阶段,无法对业务和IT主动感知,业务异常无法及时发现。
以云智慧服务的某国内500强企业为例,该企业承担着产业链上下游数百家企业海量电子信息的实时汇聚和处理,每天新生成日志数据达到数十TB,而且分布式交易系统调用关系复杂,如何快速解析检索日志、审计追溯交易、快速定位故障、及时发现安全隐患都是该企业IT部门亟需解决的难题。
依托自研的DOLA产品,云智慧为该企业搭建了高性能智能日志分析平台,其日志处理能力达到以下性能指标:
·支持5万/秒并发数据实时分析处理,数据传输和平台解析处理吞吐量:540MB/s,处理延时在300毫秒以内;
·秒级查询全量24小时的实时日志数据,实时日志搜索耗时<1s; 7日内数据积累的基础上的响应延时<30s;
·单点客户端平均传输速度> 1万 EPS(Event per second);
·采用高性能的分布式列式存储数据库,服务器数据生成能力在100MB/s以上,且数据完整性100%;
·扩展性:支持线性扩容,可视化配置/启停处理节点,每秒处理数据量支持线性增加;
·可插拔:所有采集器均采用可插拔设计,且所有解析器均支持二次开发扩展;
DOLA,即Digital Operation Log Analytics,是云智慧的数字化运维日志分析产品。DOLA产品基于大数据技术与智能算法,能够实现离散日志数据的统一采集、处理、检索、模式识别以及可视化分析,可应用于统一的日志管理、基于日志的运维监控与分析、安全审计与合规、各种业务分析等运维场景。
自主研发的DOLA日志采集器以及Filebeat、 Logstash等多种开源日志采集器,能够对来自网络设备、安全设备、操作系统、数据库、中间件、业务系统的离散的日志数据进行全面、有效、集中的采集,适配多种数据库,操作简便,帮助客户减少日志采集的时间与人力成本。
云智慧DOLA产品广泛适用于以下应用场景:
·统一日志管理:企业日志具有跨平台、种类繁多、数据量大等特点,为了解决日志分散不方便查看、日志搜索操作复杂效率低下、日志利用率低、无法帮助运维人员进行问题分析与定位,需要对日志进行统一的管理。DOLA能够提供一站式的统一日志管理服务,实现离散日志的统一采集、处理、存储、归档以及查询,降低运维人员查找日志的成本,避免⼈为登录服务器误操作引发的生产故障。
·基于日志的调用链跟踪:调用链中包含了从源头请求(比如前端网页请求、无线客户端请求等)到底层系统(比如数据库、分布式缓存等)的所有中间环节,DOLA能够实现无侵入式的数据收集,帮助运维人员快速分析系统性能消耗的原因、定位异常并解决问题。
·基于日志模式的异常识别:企业日志种类繁多、数量巨大、产生速度快,如何快速从海量日志中获取信息进行异常定位是日志分析中的一大痛点。DOLA基于日志模式对异常进行识别,能够帮助运维人员快速找出自己关心的日志类型,或者发现异常日志,发出告警,缩短问题发现的时间。
·指标的异常检测:很多业务指标的数据具有周期性和季节性,传统的通过人工设置固定阈值的告警方式,不仅费时费力,且严重依赖运维人员的经验,容易产生误报以及漏报。DOLA通过动态基线算法对日志中的指标数据进行智能异常检测,直接识别异常的业务系统或者IT系统,能够大幅度减少人工阈值的配置工作,提升告警的准确率。