作者: Jasper


告警阈值重要性

在日常运维过程中,数据库监控告警对于维护数据库系统的稳定性、性能和安全性非常重要。那么如何调整好一个合适的监控告警的阈值就非常重要。 调太高了,会错过重要的告警内容,调太低了,又会被密密麻麻的告警淹没。



TiDB监控告警架构

  • Prometheus Server:用于收集和存储时间序列数据。
  • Grafana :作为可视化组件将 prometheus 收集到的数据进行展示
  • Alertmanager:用于实现报警机制。

手把手教你修改 TiDB 监控告警阈值_tiup



修改告警阈值步骤

  1. 获取 告警规则 rule 文件 ,位置在 prometheus 的 depoly 目录下conf 目录中

手把手教你修改 TiDB 监控告警阈值_yml_02

手把手教你修改 TiDB 监控告警阈值_rule_03

  1. tiup 修改集群配置文件,添加 rule_dir ,注意此处 rule_dir 指定的目录为 tiup 中控机上面的目录

手把手教你修改 TiDB 监控告警阈值_tiup_04

  1. 创建 rule_dir ,并将第一步获取到的 rule 文件拷贝到第二步创建的目录中
[tidb@vm172-16-201-73 ~]$ cd /tidb-deploy/cc
[tidb@vm172-16-201-73 /tidb-deploy/cc]$ mkdir rule
[tidb@vm172-16-201-73 /tidb-deploy/cc]$ cd /tidb-deploy/cc/prometheus-39090/conf
[tidb@vm172-16-201-73 /tidb-deploy/cc/prometheus-39090/conf]$ cp *.yml /tidb-deploy/cc/rule/
  1. 修改告警阈值

此处用 TiDB_tikvclient_backoff_seconds_count 这个指标举例

这个指标属于 tidb 的告警,那么就是要修改 tidb.rules.yml ,此处不清楚想修改的指标含义的可以自行官网搜索。

找到 tidb.rules.yml 中的 对应指标并修改,将 10 修改为你想调整的值。

手把手教你修改 TiDB 监控告警阈值_tidb_05

  1. Reload 监控组件使配置生效
tiup cluter reload tidb-test2 -R prometheus

至此,监控告警阈值修改完成

特别提醒

  1. 一定要创建单独的 rule_dir ,不能直接对 prometheus 自带的 rule_dir 进行修改。
  2. 创建的 rule_dir 位置是位于中控机的目录
  3. 建议阈值调整小步慢跑,多次调整。不要一次调整过大或过小,避免丢失重要告警。