湖蓝几何球体LinkedIn Banner.png

转载说明:如果您喜欢这篇文章并打算转载它,请私信作者取得授权。感谢您喜爱本文,请文明转载,谢谢。


前言

监控告警是业务稳定性建设非常重要的一环,告警项的配置、告警阈值的设置、告警信息的发送和响应,都影响着业务稳定性。

随着系统版本迭代,监控告警工具的变更,人员的变动等诸多因素的变化,我们需要定期对监控告警的方方面面做复盘,不断优化提升监控告警,以最大程度保障业务稳定。2023年眼看就接近尾声了,今年你的监控告警表现怎么样?你开始做年度复盘了吗?

本文对监控告警复盘要点做了一次梳理,可供参考。

1. 告警项的复盘

  • 每一个告警等级都是合理的吗?是否存在等级过低/过高的告警项?
  • 每个告警项的告警阈值、频率是否依然合理?
  • 是否存在可废弃的告警项?或可以创建哪些自动化的工具以便于彻底弃用某个告警项?
  • 告警频率是否合理,是否需提升/降低告警频率?
  • 告警文本是否准确,让oncall人员收到告警后立刻知道自己该做什么?
  • 历次发生的故障是否准确发出和送达了相应的告警信息,告警是否存在误告/漏告?
  • 近期是否存在业务系统重要重大变更,变更后是否存在关联告警项需要调整?
  • 每个告警项是否能准确传达关键问题所在?
  • 可否修改底层监控方案让告警更加精确?

2. 告警渠道的复盘

告警一般属于三种类型:

要求立即采取响应/行动:这类告警适用于发送到随身通信设备,如短信告警、电话告警; 需要知晓,但不需要立即采取行动:这类告警可以发送到内部聊天工具上,以便于后期回顾。也可以选择发送到邮件告警,但是要注意邮件分类与通知处理,因为这类告警很容易被邮件淹没、忽视; 记录下来用于问题回顾/诊断:这类信息可记录到日志日中,方便对它们进行分析、报告; 做好监控告警的关键技巧

对告警渠道的复盘:

  • 是否存在需调整告警渠道的告警项(如告警等级上升或下降,导致需要修改告警渠道)?
  • 每个告警渠道是否依旧畅通无阻?
  • 每个告警渠道的使用率是否发生变化,导致需调整告警渠道的(如邮件告警是否长期被忽略或下班时间实发及时知晓和查看有告警邮件,于是改向发送微信告警)?
  • 是否存在更有效的告警渠道可投入使用的?或无效告警渠道可删除的?

3. 告警接收人的复盘

告警接收人的注意事项:

  • 慎重选择告警接收人,发送给主要相关人员;
  • 做好各相关部门的值班排班表,明确每天各相关团队的oncall人员;
  • 为oncall准备B岗,以备不时之需;
  • 在公司内部有一个统一、清晰、明确的故障升级上报机制;
  • 对oncall机制要妥善安排,处于oncall状态,不仅精神会比较紧张,而且还会打断日常工作,不建议同一位同事长时间处于oncall状态。

对告警接收人的复盘:

  • 告警接收人员是否需要变动(如是否存在人员增减、部门/工作变动等导致的变动)?
  • 当前oncall排班是否依旧合理?是否需做出调整?
  • 告警上报和backup机制,是否需要调整?
  • 每次告警,oncall人员都做出了正确的反应吗?是否存在发送了告警而无人响应的情况?

::: hljs-right

(全文完)

:::