运维软件:zabbix
采集方式:snmp
采集设备:惠普-DL380_Gen9-服务器
采集周期:根据指标要求频率有5分钟到1天
主要命令:reset /map1

乐维服务中发现,snmp采集惠普服务器一段时间后,zabbix提示连接失败,重启ilo后又可以重新采集,我们可以利用这一点做一个自动重启脚本,保证采集正常。
实现思路:zabbix检查自定时间内没有数据->触发告警脚本->告警脚本登录设备执行 reset /map1

1.我们要模板里加一个多久没有采集到数据的触发器如:
【SNMP采集】针对惠普服务器SNMP采集频繁,导致服务停止的解决方案_SNMP 

2.增加报警媒介。
管理->报警媒介类型->创建报警媒介类型。

【SNMP采集】针对惠普服务器SNMP采集频繁,导致服务停止的解决方案_惠普服务器_02 

脚本的操作是根据传过来的参数到数据库是找出此设备管理口IP、帐号、密码。

主要sql:SELECT i.ip,h.ipmi_username,h.ipmi_password from `hosts` as h LEFT JOIN interface as i on i.hostid = h.hostid where h.host="'.$hostName.'"  and  i.port= 161。

然后用ssh连接到该设备,执行reset /map1 就可以重启该ilo了。

3.添加动作
配置->动作->创建动作
【SNMP采集】针对惠普服务器SNMP采集频繁,导致服务停止的解决方案_SNMP_03 


到此重启设备ilo口完成。

面对snmp频繁采集导致snmp连接失败,这也是一个解决方案。


【SNMP采集】针对惠普服务器SNMP采集频繁,导致服务停止的解决方案_SNMP_04




转自

惠普服务器SNMP采集频繁导致服务停止解决方案

(出处: 乐维)