一. 自定义nagios监控脚本


1. 在客户端上创建脚本/usr/local/nagios/libexec/check_disk.sh

vim  /usr/local/nagios/libexec/check_disk.sh 写入如下内容:(client上)


#!/bin/bash

row=`df -h |wc -l`             #输出的总行数

for i in `seq 2 $row`          #从第二行开始为真实的磁盘,因为第一行为抬头信息

do

        ava=`df -h |sed -n "$i"p|awk '{print $4}'`                     #有效空间

        u_per=`df -h |sed -n "$i"p|sed -n "s/\%//"p|awk '{print $5}'`  #去掉%的使用率

        p_p=`df -h -P|sed -n "$i"p|awk '{print $6}'`                   #挂载点

        if [ "$u_per" -gt "97"  ];then

                echo -n "$p_p CRITICAL $u_per% $ava  "

                sta[$i]=2                                      #大于97,赋予返回值2并显示一些信息

        elif [ "$u_per" -gt "95" ];then

                echo -n "$p_p WARNING! $u_per% $ava  "

                sta[$i]=1

        else

                echo -n "$p_p OK $u_per% $ava  "

                sta[$i]=0

        fi

done

n=0

for j in `seq 2 $row`                      #找出最大值,

do

        if [ "${sta[$j]}" -gt $n  ];then

                n=${sta[$j]}

        fi

done

exit $n

##exit 2 表示这个程序退出后,它的返回值是2。

可以理解为这个程序死了,它的遗言是2,告诉别人自己是因为什么原因死掉的。这样法医(shell或它的父进程)就可以知道原因,来判断凶手(程序出错)是谁,从而作进一步的处理。


2. 保存后,修改该脚本的权限

chmod +x  /usr/lib/nagios/plugins/check_disk.sh (client上)

3. 然后编辑/etc/nagios/nrpe.cfg文件

vim /etc/nagios/nrpe.cfg  # 加入一行:(client上)

command[check_disk]=/usr/lib/nagios/plugins/check_disk.sh

保存,重启nrpe服务

/etc/init.d/nrpe restart (client上)

4. 检测刚才的脚本是否正常运行的方法是,到server端执行如下命令:

/usr/lib/nagios/plugins/check_nrpe -H 192.168.0.12 -c check_disk (server上)

如果正常的话,会输出一行磁盘检测的数据,否则可能会报错。

5. 到server上添加相应的service

cd /etc/nagios/conf.d/

vim 192.168.0.12.cfg     # 加入如下内容:

define service{

        use     generic-service

        host_name       192.168.0.12

        service_description     check_disk

        check_command           check_nrpe!check_disk

        max_check_attempts 5

        normal_check_interval 1

}

6. 重启nagios服务

/etc/init.d/nagios restart   (server上)