一、AIOps在运维的五个基本要素

即质量、性能、效率、成本、安全。有很好的应用前景。

统筹规划的优先级方面,效率相对独立,安全也相对独立,接下来要先关注质量,即系统可用性,其次是性能,在此基础上再进行优化成本。我们主要聚焦在运维质量上进行讨论,而在性能和成本上的落地原则大同小异。

类比历史著名医学案例,扁鹊三兄弟。

对于常出故障的系统,最需要的是扁鹊——治大病,其次需要扁鹊二哥——治小病,最后需要扁鹊大哥——治未病。

也就是,首先要降低故障修复时间,这是规划里最重要、最痛的点;其次,延长无故障时间,识别并消除小隐患;最后,要通过故障演练,提前发现和解决问题,不影响用户体验。

规划中最迫切的“运维质量:降低故障修复时间”有很多细分步骤,实际落地起来挑战重重。多源多模态且信噪比低的运维数据,关联所需要用到的依赖数据非常复杂且不易获得,有时数据质量也不高。

因此,决定先做的原则是要事优先,即聚焦并串连最终导致业务故障的常见异常。

首先聚焦解决这些常见故障,要有全局视野,先抓重点细节,聚焦并串起导致那些业务故障的常见组件故障,这就是规划AIOps时从价值角度出发的“要事优先”原则。

二、点面结合

规划落地AIOps时,往往有两种误区:一是只看有可量化价值的具体的技术点,如业务指标异常检测;二是只看有可量化的端对端价值的场景,而我们的原则是“点面结合”。

也许因为依赖其它技术点, 业务指标异常检测还没有产生端对端的效果,但是其本身有一些评估指标比如相比传统方法提前X分钟发现故障,这可以给予我们很大的希望。就像医院里的医疗设备,比原来的设备检测得更准、更快,价值就应该得到认可,而不能因为需要一些其它技术点才能产生完整的端对端价值而被否认。

三、应用实践--应急排障

在应急排障中,基于全栈数据做异常发现;基于趋势异常信号做关联,从而获得“上帝视角”。

运维排障的每个节点都是系统运转过程中的一种可能异常,机器学习算法,在趋势性预测、异常检测算法,日志聚类分析等方面,通过庖丁解牛的方式进行拆解,在复杂的运维场景中,完成数据高效分析,达到快速定位根因分析的效果。

四、在线值守

LinkSLA智能运维管家无人值守能够检测出来零误报的异常检测,清晰地区分所有异常和所有新上线的应用状态,所以我们用MOC值守进行用户服务。

从架构角度来说,一个AIOps系统是以运维监控数据为输入,每个组件都有其提供的服务,整体上是模拟运维人员的行为。

五、数据治理--场景与算法齐头并进

数据治理和AIOps应用孰先孰后,一直存在争议。有一种观点认为“要先做好数据治理,才可能做AIOps落地”。听起来很有道理,但是“脱离实际业务场景来做数据治理和脱离了应用架构来做数据治理,完全是镜花水月”。通过不断尝试落地AIOps场景,发现数据不足,补充完善运维数据的治理。

所以,数据治理与AIOps应用是齐头并进、互相依赖、互相促进。一些具体场景,如有已经有标准化的数据质量标准(如指标的采集间隔和连续性),可以先尝试实施相应治理再落地算法。对于需要针对性治理的数据(如CMDB),则要治理与应用齐头并进。