一. 自定义nagios监控脚本
1. 在客户端上创建脚本/usr/local/nagios/libexec/check_disk.sh
vim /usr/local/nagios/libexec/check_disk.sh 写入如下内容:(client上)
#!/bin/bash
row=`df -h |wc -l` #输出的总行数
for i in `seq 2 $row` #从第二行开始为真实的磁盘,因为第一行为抬头信息
do
ava=`df -h |sed -n "$i"p|awk '{print $4}'` #有效空间
u_per=`df -h |sed -n "$i"p|sed -n "s/\%//"p|awk '{print $5}'` #去掉%的使用率
p_p=`df -h -P|sed -n "$i"p|awk '{print $6}'` #挂载点
if [ "$u_per" -gt "97" ];then
echo -n "$p_p CRITICAL $u_per% $ava "
sta[$i]=2 #大于97,赋予返回值2并显示一些信息
elif [ "$u_per" -gt "95" ];then
echo -n "$p_p WARNING! $u_per% $ava "
sta[$i]=1
else
echo -n "$p_p OK $u_per% $ava "
sta[$i]=0
fi
done
n=0
for j in `seq 2 $row` #找出最大值,
do
if [ "${sta[$j]}" -gt $n ];then
n=${sta[$j]}
fi
done
exit $n
##exit 2 表示这个程序退出后,它的返回值是2。
可以理解为这个程序死了,它的遗言是2,告诉别人自己是因为什么原因死掉的。这样法医(shell或它的父进程)就可以知道原因,来判断凶手(程序出错)是谁,从而作进一步的处理。
2. 保存后,修改该脚本的权限
chmod +x /usr/lib/nagios/plugins/check_disk.sh (client上)
3. 然后编辑/etc/nagios/nrpe.cfg文件
vim /etc/nagios/nrpe.cfg # 加入一行:(client上)
command[check_disk]=/usr/lib/nagios/plugins/check_disk.sh
保存,重启nrpe服务
/etc/init.d/nrpe restart (client上)
4. 检测刚才的脚本是否正常运行的方法是,到server端执行如下命令:
/usr/lib/nagios/plugins/check_nrpe -H 192.168.0.12 -c check_disk (server上)
如果正常的话,会输出一行磁盘检测的数据,否则可能会报错。
5. 到server上添加相应的service
cd /etc/nagios/conf.d/
vim 192.168.0.12.cfg # 加入如下内容:
define service{
use generic-service
host_name 192.168.0.12
service_description check_disk
check_command check_nrpe!check_disk
max_check_attempts 5
normal_check_interval 1
}
6. 重启nagios服务
/etc/init.d/nagios restart (server上)