zabbix value map导致报警失效问题一例

推荐原创

菜菜光 2014-03-12 22:15:48 博主文章分类：zabbix ©著作权

©著作权归作者所有：来自51CTO博客作者菜菜光的原创作品，请联系作者获取转载授权，否则将追究法律责任

今天一台线上的datanode挂了，但是没有zabbix agent unreachable的报警，不过幸好有host update percent的报警。看了下item和trigger的设置，item是zabbix内置的agent.ping,trigger设置是nodata(5m)=1,即5分钟获取不到agent.ping的值就会报警。。

由于zabbix server log翻转的比较快，同时日志大小设置的为1g，所以出问题时候的日志没办法看了。。只能从数据库开始入手了。查看triggers表，可以看到value确实是1，functions表中的functin+parameter也是nodata+1m，证明是可以正确触发报警的。

select triggerid,expression,description,value,from_unixtime(lastchange ,'%Y%m%d %H:%i:%S') from triggers where triggerid='6347';
+-----------+------------+----------------------------------------------------------+-------+----------------------------------------------+
| triggerid | expression | description                                              | value | from_unixtime(lastchange ,'%Y%m%d %H:%i:%S') |
+-----------+------------+----------------------------------------------------------+-------+----------------------------------------------+
|      6347 | {10832}=1  | Zabbix agent on {HOST.NAME} is unreachable for1  minutes |     1 | 20140312 11:47:31                            |
+-----------+------------+----------------------------------------------------------+-------+----------------------------------------------+
select * from functions where  itemid='27731';                 
+------------+--------+-----------+----------+-----------+
| functionid | itemid | triggerid | function | parameter |
+------------+--------+-----------+----------+-----------+
|      10832 |  27731 |      6347 | nodata   | 1m        |
+------------+--------+-----------+----------+-----------+

查看alerts表中相关时间段的记录，可以看到确实有相关的记录，由于是用了zabbix 执行command的方式来实现报警，可以看到在message字段中存储的是当时报警是执行脚本的信息：

select alertid,actionid,eventid,from_unixtime(clock,'%Y%m%d %H:%i:%S'),message from alerts where message like 'hostname%';
|  468566 |        5 | 3256580 | 20140312 09:04:02 | hostname:/apps/svr/zabbix_server/scripts/zabbix_exec_command.py ip  23500 "Agent ping"  hostname  agent.ping  Up (1)  PROBLEM                                            |
|  468567 |        5 | 3256580 | 20140312 09:06:03 | hostname:/apps/svr/zabbix_server/scripts/zabbix_exec_command.py ip  23500 "Agent ping"  hostname  agent.ping  Up (1)  PROBLEM

手动执行脚本，报错：

/apps/svr/zabbix_server/scripts/zabbix_exec_command.py ip  27731 "Agent ping"  hostname agent.ping  Up (1)  PROBLEM
  -bash: syntax error near unexpected token `('

脚本输入参数的顺序：ip,itemid,itemname,hostname,itemkey,itemvalue,triggerstatus,出问题的时itemvalue字段，因为没有用引号，导致脚本运行出错，fix下脚本就可以了。。。

不过，rc还没有找到，这个Up (1) 是怎么来的呢？一般情况下数字型的item产生的itemvalue不会有这种值啊？

为了验证这个问题，手动stop掉一台机器zabbix_agentd进程，并查看zabbix server端的log：

发现在存储agent.ping类的item的值时，有如下操作，把1变成了UP（1）。

5009:20140312:113302.211 In zbx_format_value()
5009:20140312:113302.211 In replace_value_by_map() value:'1' valuemapid:10
5009:20140312:113302.211 query [txnlev:1] [select newvalue from mappings where valuemapid=10 and value='1']
5009:20140312:113302.211 End of replace_value_by_map() value:'Up (1)'

说明还是和item的设置有关，再来看agent.ping的设置，在show value设置中，可以看到并不是as is，而是设置的zabbix agent ping status，这里面就是1->up的map：

zabbix value map导致报警失效问题一例_zabbix value map

再来看zabbix的doc中关于map value的描述，其实是为了返回更易理解的值：

For a more “human” representation of received values, you can use value maps that contain the mapping between numeric values and string representations.

rc找到了，把show value改成as is就ok了。

小结：

1.日志+数据库是解决zabbix问题的利器。

2.有时候需要设置多种报警方式，比如在这个例子中，由于有zabbix host update percent的报警，发现了这个问题。