监控告警运营的目标
1,通过数字,客观反应监控对象覆盖情况,监控对象的采集数据质量
2,通过数字,客观的反应告警情况,告警的运行质量
下文根据这两个目标,探讨如何设置合理的运营指标可以反映现状,并可以指导监控系统可以持续改进
运营指标设定
- 覆盖率
定义:
监控的对象占所有的需要监控对象的比例,单位%
计算公式: - 需要监控的对象需要从CMDB中来,包括不限于生产上使用的活跃对象
常规提升方法:
1,流程驱动,在对象的上线或者下线流程,嵌入监控的环节,达到实时监控的目的,这是主要方式
2,兜底方案,周期性全量和增量扫描CMDB的生产中的对象,把新增的对象加入到监控列表中,过期的对象清理掉,由于扫描的是全量对象,所以一般对实时性要求不高,作为兜底方案运行。
衍生指标:
如果对生产的对象用途和所属组织进行一些聚合,可以衍生出一些其他需要关注的指标,比如核心系统的监控覆盖率,mysql监控覆盖率,XXX组织的监控覆盖率等等,定义和提升方法和上面类似,这里不赘述。 - 采集率
定义:一定周期内(一般是24小时)采集上来的数据占需要采集数据的比例,单位%。
计算公式: - 常规提升方法:
采集率是衡量监控数据质量的重要指标,当采集率低到0%时,则退化为这个监控对象未覆盖,提升采集率需要全流程去考虑,从采集的agent,到数据的处理,存储等等
衍生指标:
和覆盖率类似,采集率也可以按照场景和组织进行聚合,主机采集率,XXX组织采集率等等 - 告警及时率
定义:从产生告警到通知到用户所需时间在告警规范的时间内的告警比例,告警及时率主要衡量告警时效的指标,根据公司的业务特性,可以设定告警规范时间,一般在一分钟左右,如果有一些特殊要求,比如需要告警收敛,那么这个时间可以适当延长
单位%
计算公式: - 常规提升方法:
我们不需要所有告警都需要及时通知,可以根据告警的级别进一步细分,提升关键告警的及时率,同时,程序尽量采用事件触发,少采用job方式轮巡。
衍生指标:
同步及时率,通知及时率,自动通知及时率,人工通知及时率等 - 告警处理及时率
定义:在规范时间内告警被及时解决占所有告警的比例,通过告警及时率来衡量用户对告警的反应时效和处理时效,单位%
计算公式: - 常规提升方法:
和告警通知及时率类似,首先要细分场景,有些告警处理时间需要很长,例如硬件故障等等,根据告警的优先级,哪些告警需要更加及时的处理,提升告警自动处理,也有助于这个指标的达成。
衍生指标:
告警受理及时率,告警自动处理率等等
其他指标
还有一些其他的指标,可以参考
告警降噪率:通过技术方式(告警屏蔽,收敛,根因)等方式,减少的告警比例
告警量:一般会看总量和人均需要处理的告警量
自动通知率:有多少告警是系统自动找到处理人通知的,与之对应的是人工通知率