zabbix最重要的功能是什么呢?我觉得监控是第一步,真正展示他的功能的是各种方式来报警,报警是我们可以看到的,那么是有什么机制导致他报警的呢?那就是触发器了,触发器是报警的第一大功臣,这节我们就来说说触发器如何设置
我们一般会在以下情况中设立触发器:
这节我们主要说一下 “端口存活” 和 “数据获取连续性”;另外两个需要设计到zabbix_agent,后面会说到。
1、简单的端口存活触发器
点击 “配置” --> “主机”--> “触发器”,如下图所示:
点击右上角 “创建触发器”:
会出现如下界面:
在“名称”参数中,写入一个名字,严重性可以自己确定自己设立的触发器一旦被触发,是属于小问题呢,还是说比较严重的问题,类似于一个端口down了,内存超过80%了,这些都属于比较严重的问题,比如:
我在这里设立触发器的名字是 “port_survival_22” ,严重性我设定的是 “严重” ,当点击 “添加按钮之后,如下图所示:
点击 “选择” 按钮:
从上图中选择要设立触发器的监控项目,我选择的是第一个;
next:
从下拉列表中选择:
last()-Last(most recent)T value 汉译:最近一次获取的值
如下图之后,选择 “插入” 按钮:
最后确认信息如下图之后,点击 “添加” 按钮:
这个时候我们就已经添加了一个触发器,如何验证呢?本节最后再验证吧,比较懒~~~
2、数据获取连续性
这个是什么意思呢?
就是说比如你在获取一个数值,或者说被监控主机需要每隔30S给你返回一些数据,但是不一定是数字,或者是浮点数,偶尔有一次两分钟没有给你返回数据,这个时候说明被监控主机出问题了,这个时候就是“数据获取连续性”的触发器。
在刚才创建成功的界面中,点击右上角的 “创建触发器”:
本次设置信息如下:
PS:帮忙回忆下 “host_survival_ping” 的功能,每隔30S来ping一下对方主机,验证是否存活。
最后如下图所示:
这个时候两个简单的触发器就搞定了,但是实际生产中,这两个触发器也是我们使用最多的两个触发器。
3、如何验证?
在这里我选择把192.168.20.129这台被监控主机关机,好了,去抽根烟~~~一会儿回来应该就报警了~
OK,现在看下仪表板:
点击 “监测” --> “仪表板”
我们发现只有一个报警了,为什么另一个触发器 “host_survical_ping” 没有报警呢?因为即使你关闭了129服务器,他也是会有数据写入数据库的,哪怕是错误的数据,那么也是数据,所以不会触发报警,我们如何验证呢?
把触发器“host_survival”的 “更新间隔” 修改成 “2m” 如下图所示,静等~~~
一分钟过后。。。
如上图所示,已经报警了,这时候我们重新把 192.168.20.129 这台服务器启动,再把 “host_survival” 的更新间隔修改成 “30S” 静等一会儿。。。
OK,如下图所示,恢复正常
至此,我们触发器的 “端口存活” 和 “数据获取连续性” 搞定,同学们一定要认真点儿,这篇文章简直坑死我了,中途遇到各种问题,都是小疏漏,写了整整三个小时~~~不过只要按照我的图示来做,应该不会有问题~~~
继续加油~