Nagios Pnp绘制趋势图

软件需求:

apache、perl>=5.x、rrdtool>=1.x、php>=4.3、zlib、gd、nagios>2.x、pnp-0.4.14

有关资料上说的cacti上的图,好像都是用snmp协议获取的数据画出来的。因此,如果监测不都是用snmp获取数据,也不希望安装cacti的话,倒是可以用pnp直接在nagios上显示趋势图。个人认为pnp画趋势图一点都不差。

参考资料

http://bbs.chinaunix.net/thread-2311792-1-1.html

http://chenlinux.com/2010/08/13/intro-pnp4nagios/

Rrdtool安装

参考资料:http://pkgs.repoforge.org/rrdtool/

# rpm -ivh libdbi-0.8.1-2.1.i386.rpm (32位操作系统)

# rpm -ivh libdbi-0.8.1-2.1.x86_64.rpm (64位操作系统)

或直接用yum:

#yum install libdbi

# rpm -ivh lua-5.1.4-2.el5.rf.x86_64.rpm (64位操作系统)

# rpm -ivh lua-5.1.4-2.el5.rf.i386.rpm (32位操作系统)

以上两个为rrdtoo的依赖包。

以下三个包要一起安装否则会报一些错误,如找不到perl(RRDp) 什么的:

# rpm -ivh rrdtool-1.4.7-1.el5.rf.x86_64.rpm rrdtool-devel-1.4.7-1.el5.rf.x86_64.rpm perl-rrdtool-1.4.7-1.el5.rf.x86_64.rpm (64位操作系统)

# rpm -ivh perl-rrdtool-1.4.7-1.el5.rf.i386.rpm rrdtool-devel-1.4.7-1.el5.rf.i386.rpm rrdtool-1.4.7-1.el5.rf.i386.rpm (32位操作系统)

下载pnp.tar.gz

http://docs.pnp4nagios.org/pnp-0.4/install 可以下载到pnp-0.4.14.tar.gz和pnp4nagios-0.6.21.tar.gz(安装和配置略有不同)。这里,推荐使用pnp4nagios-0.6.21.tar.gz。

安装必要包

yum intall php-gd

或者

#rpm -ivh php-gd-5.1.6-32.el5.x86_64.rpm(如果依赖包没有安装,请根据提示到网上下载相应的依赖包进行安装)

编译安装

参考资料:http://smallfish01.blog.51cto.com/3565/455092

Pnp包安装

# tar zxvf pnp4nagios-0.6.7.tar.gz
# cd pnp4nagios0.6.7
# ./configure --with-nagios-user=nagios --with-nagios-group=nagcmd
# make all
make install
make install-webconf
make install-config
make install-init

创建默认配置文件

以下默认的sample例子配置文件,可能并不存在,而是已经有默认的配置文件了。这种情况可能会导致复制失败。不过默认配置文件已经有了,就可以了。

# cd /usr/local/pnp4nagios/etc
cp misccommands.cfg-sample misccommands.cfg -p
cp nagios.cfg-sample nagios.cfg -p
cp npcd.cfg-sample npcd.cfg -p
cp process_perfdata.cfg-sample process_perfdata.cfg -p
cp rra.cfg-sample rra.cfg -p

cd pages
cp web_traffic.cfg-sample web_traffic.cfg -p
cd ../check_commands
cp check_all_local_disks.cfg-sample check_all_local_disks.cfg -p
cp check_nrpe.cfg-sample check_nrpe.cfg -p
cp check_nwstat.cfg-sample check_nwstat.cfg -p

# 启动npcd服务
# service npcd start

修改nagiso配置文件

#修改nagios.cfg
# cd /usr/local/nagios/etc
# vi nagios.cfg
#修改配置为:
process_performance_data=1
host_perfdata_command=process-host-perfdata
service_perfdata_command=process-service-perfdata

#修改 commands.cfg

# cd /usr/local/nagios/etc/objects
# vi commands.cfg
#添加
# 'process-host-perfdata' command definition
define command{
command_name process-host-perfdata
command_line /usr/bin/perl /usr/local/pnp4nagios/libexec/process_perfdata.pl -d HOSTPERFDATA

#后面的-d HOSTPERFDATA很重要!没有的话就不能产生图形文件了!
}
# 'process-service-perfdata' command definition
define command{
command_name process-service-perfdata
command_line /usr/bin/perl /usr/local/pnp4nagios/libexec/process_perfdata.pl
}
#修改nagios模板文件。

# templates.cfg
# 在最后添加
define host {
name host-pnp
action_url /pnp4nagios/graph?host=$HOSTNAME$ #显示主机所有服务的图

#action_url /pnp4nagios/graph?host=$HOSTNAME$&srv=_HOST_ #显示ping的状态图

process_perf_data 1
register 0
}
define service {
name srv-pnp
action_url /pnp4nagios/graph?host=$HOSTNAME$&srv=$SERVICEDESC$

process_perf_data 1
register 0
}

# 修改主机配置文件,例如windows.cfg

# cd /usr/local/nagios/etc/objects
# vi windows.cfg
#增加host-pnp,srv-pnp
define host{
use linux-server,host-pnp
host_name Windows Server
alias Windows 2003 server
address 1.2.3.4
}

define service{
use generic-service,srv-pnp
host_name Windows Server
service_description PING
check_command check_ping!100.0,20%!500.0,60%

其他相关的define host, define service都要修改。

#验证配置文件,无误后重启nagios和httpd 服务
# /usr/local/nagios/bin/nagios -v /usr/local/nagios/etc/nagios.cfg

#配置文件验证通过后,重启服务

# service nagios restart
# service httpd restart

这里我要特别说明一下,我在配置这个趋势图时,并没有创建host-pnp和srv-pnp,如果按照上面写的,则所有的被监测的cfg配置文件中,都要在host和service的use中,增加host-pnp或srv-pnp。这太麻烦了。由于所有的被监测设备都是从linux-vod-sw模板和linux-vod-sw继承的,而且,所有的service都是从generic-service继承的,因此,我就直接改这个模板,将action_url和process_perf_data参数都加在模板中了,这样就不需要修改每个监测机器的配置文件了。

# 至此,安装完成。登录nagios控制台,选择host主机名旁边(或者service名旁边)的趋势小图标,即可看到趋势图。如果是第一次使用的话,就有一个页面,告诉用户配置是否全部符合要求,如果全部都正确的话,会要求用户删除instal.php,我是直接改名,改名后,再次点击趋势小图标,就能显示趋势图了。
# cd /usr/local/pnp4nagios/share
# rm install.php

# mv install.php install.php.bak 或者改名也行

在templates.cfg 模板文件中的,新添加的action_url后面还可以加上 class 和 rel 以支持鼠标移上去后就能显示弹出的趋势图:

action_url /pnp4nagios/graph?host=$HOSTNAME$'class='tips' rel='/pnp4nagios/popup?host=$HOSTNAME$&srv=_HOST_

action_url /pnp4nagios/graph?host=$HOSTNAME$&srv=$SERVICEDESC$'class='tips' rel='/pnp4nagios/popup?host=$HOSTNAME$&srv=$SERVICEDESC$

注意这里的引号和空格。另外,服务器主机的弹出图的脚本中最后加了&srv=_HOST_,表示只显示主机的ping包。否则所有的图显示出来比较要命。因此,在配置了这个功能后,主机的趋势图配置中,最好是加上“&srv=_HOST_”,这两项配置的截图为:

Host配置:

clip_p_w_picpath002

Service配置:

clip_p_w_picpath004

要实现弹出的图还需要拷贝status-header.ssi到/usr/local/nagios/share/ssi/目录下面来。

#cp /root/new/pnp4nagios-0.6.21/contrib/ssi/status-header.ssi /usr/local/nagios/share/ssi

# chown -R nagios.nagios /usr/local/nagios/share/ssi

# ll /usr/local/nagios/share/ssi

-rw-r--r-- 1 nagios nagios 357 Sep 5 15:18 status-header.ssi

#

# service nagios restart
# service httpd restart

配置完成重启nagios和httpd服务后,鼠标移到趋势小图标上面,就能显示出弹出的图形了。如果还不能显示,有可能是ie的问题,请自行查证。或者将趋势图url中的graph改成popup,看看是否能显示出图形。如果可以显示的话,应该是ie浏览器的问题。

clip_p_w_picpath006

问题解答

以下问题是我在安装pnp-0.4.14.tar.gz版本中出现的问题,记录下解决方法。

如果是pnp4nagios-0.6.21.tar.gz版本的话,在第一次点击趋势图小图标时,显示的页面中会有验证信息,比如有个rpm包没有安装等提示信息。只有所有的包验证都通过,则一般情况下,趋势图就能出来。

重启nagios和httpd后,如果不能画出图形,并报以下错误:

clip_p_w_picpath008

则使用yum intall php-gd安装后重启httpd服务。

如果问题还未解决,则使用如下命令查看:

# php -m|grep -i gd

该命令成功的返回字符为gd。我在安装一个地方的监测系统时,报了:

clip_p_w_picpath010

执行# php -v也报错,用ie打开 http://.../test.php也没有显示gd的一项。

后来发现gd.so文件不在/usr/lib/php/modules/下,而是在/usr/lib64/php/modules/中,将lib64下的文件复制到lib下就不会出现第二个错误了。对于第一个错误,将另外一地系统的dbase.so文件覆盖掉这个文件后,问题解决。

这个问题可能是由于在安装过程中,即安装了32位的rpm包,又安装了64位的rpm包引起。

这里提一下test.php文件,这个文件是测试php功能的,在安装cacti的资料中都会提到这个测试来验证是否支持json扩展。创建完这个文件后,需要重启下httpd服务。文件内容为:

vi /var/www/html/test.php

<?php
phpinfo();
phpinfo(INFO_GENERAL);
phpinfo(1);
?>

如果又报了以下错误:

clip_p_w_picpath012

检查下vi /usr/local/nagios/etc/nagios.cfg

process_performance_data=1参数值是否为1

host_perfdata_command=process-host-perfdata

service_perfdata_command=process-service-perfdata

是否打开。并且监测脚本中是否增加了“process_perf_data 1”。

进程数process不能出图的解决

参考资料:

http://www.suiyiwen.com/question/4173

http://blog.chinaunix.net/uid-25266990-id-3437195.html

默认安装的插件check_procs没有输出性能数据,可以通过修改源代码的方式,解决了这个问题。

具体实现方式

1 修改nagios-plugins-1.4.15\plugins\check_procs.c文件

找到 main (int argc, char **argv) 函数,添加新的变量 pref:

char *perf;

perf = strdup("");

2 函数最后return result; 之前的 printf ("\n"); 修改为:

asprintf(&perf, "%s", perfdata ("processes", procs, "",

TRUE, wmax,

TRUE, cmax,

TRUE, 0,

FALSE, 0));

printf ("|%s\n",perf);

3 重新编译源代码,将新生成的check_procs替换掉老的文件

这样,PHP终于可以出进程数process的图了。

实现原理

PNP出图的数据来自脚本在系统打印出来的字符串,而Nagios源码提供的check_procs脚本系统输出字符串不符合数据格式规范(没有包含性能数据),所以就无法出图了。

在源码中加上性能数据的输出,这样就可以出图了。

nagios性能数据格式

例:cpu_user:OK-0% cpu_system:OK-0% cpu_idle:WARNING-99>70% | cpu_user=0%;120;90; cpu_system=0%;100;70; cpu_idle=99%;100;70;

其中性能数据为|后面的斜体部分,格式如下:

‘label’=value[UOM];[warn];[crit];[min];[max]

注意事项:

1.空格分割标签/值对 例如cpu_user=0%;100;90; cpu_system=0%;100;70; cpu_idle=99%;100;70;

2.label可以包含任何字符

3.单引号可省略,如果label中使用空格、等号和单引号,则需要需要单引号把label括起来。例如’a ‘b’ = c’=0%;100;90;

4.标签可以为任意长度,但最好少于19个字符并且唯一,(RRD有相关方面的限制),并且需要注意NRPE的返回值的限制(译者:好像是4K限制)

5.两个单引号为指定的转义字符?

6.warn, crit, min or max 可以为空(比如,如果没有定义阀值,最大最小值则不适用)并且最后的分号可以省略

7.如果UOM为%,则不需要最大最小值

8.value, min and max只能为负号“-” “0到9” 和小数点“.” 并且单位必须统一 例如:cpu_user=0.5%;99.9;-9;

9.warn and crit必须在某个区间格式,参见2.5章。单位也必须统一

10.UOM必须为以下其中之一

1.如果未指定,默认为数字(整数和浮点数)(比如用户数,进程数,负载等)

2. s – 秒 (可以为纳秒us或毫秒ms) cpu_user=0s;100;90; cpu_system=0us;100;70; cpu_idle=0ms;100;70;

3. % – 百分号 cpu_user=0%;100;90; cpu_system=0%;100;70; cpu_idle=99%;100;70;

4. B – 字节(可可以是KB ,MB TB)cpu_user=0KB;100;90; cpu_system=0MB;100;70; cpu_idle=0B;100;70;

5. c – 一个计数器 (比如网卡的流量)cpu_user=10c;100;90;

Windows监测及Pnp绘图

Nagios监测windows的那个默认的cfg中的几项中,绘制的Pnp不太符合要求,比如内存监测的数据为虚拟内存。其他自定义的服务、进程等由于输出的信息,不符合Pnp制图要求,因此,都不能绘制趋势图。

对NSClient++提供的nrpe协议进行测试,发现大多数输入的信息符合Pnp制图要求,因此,可通过nrpe的监测项来进行绘图。

要使NSClient++支持nrpe协议,需要对配置文件进行些修改。配置文件为C:\Program Files\NSClient++\nsclient.ini,该文件需要增加以下几项,以支持nrpe的监测:

; Section for NRPE (NRPEListener.dll) (check_nrpe) protocol options.

[/settings/NRPE/server]

command_timeout=60

allow nasty characters = true

use ssl=1

socket timeout=30

performance data=1

allow arguments=true


; Section for NSCA passive check module.

[/settings/NSCA/client]


; Target definition for: default

[/settings/NSCA/client/targets/default]



; Section for NSClient (NSClientServer.dll) (check_nt) protocol options.

[/settings/NSClient/server]



; Section for system checks and system settings

[/settings/check/system/windows]



; Confiure which services has to be in which state

[/settings/check/system/windows/service mapping]



; Configure crash handling properties.

[/settings/crash]



; Section for the EventLog Checker (CheckEventLog.dll).

[/settings/eventlog]



; A set of options to configure the real time checks

[/settings/eventlog/real-time]



; A set of filters to use in real-time mode

[/settings/eventlog/real-time/filters]



; Section for external scripts configuration options (CheckExternalScripts).

[/settings/external scripts]



; A list of aliases available. An alias is an internal command that has been "wrapped" (to add arguments). Be careful so you don't create loops (ie check_loop=check_a, check_a=check_loop)

[/settings/external scripts/alias]



; A list of scripts available to run from the CheckExternalScripts module. Syntax is: <command>=<script> <arguments>

[/settings/external scripts/scripts]

allow arguments=true

check_proc=scripts\\check_winprocess.exe

check_ping=scripts\\check_ping.bat 192.168.0.53

check_cmd=scripts\\check_winprocess.exe --filter "p_w_picpathname eq CMD.EXE" --compare ne --warn 1 --critical 1

check_winprocess=scripts\\check_winprocess.exe --warn 100 --critical 300


需要check_winprocess.exe程序支持,可到其官网下载并解压到C:\Program Files\NSClient++\scripts下。但这个程序似乎也有问题,不太好用。


使用NSClient自带的一些监测项,具体使用方法参考:

http://www.nsclient.org/nscp/wiki/NRPEClient

http://www.nsclient.org/nscp/


以下列举一二:

首先执行:

# ./check_nrpe -H 192.168.0.53

I (0,4,1,101 2013-05-18) seem to be doing fine...

如果有以上输出信息,则说明nrpe可正常使用。

本人原先安装的是NSCP-0.4.1.101-Win32.msi ,以上显示的输出信息正常。而如果安装最新版本NSCP-0.4.2.17-Win32.msi,则显示的信息不正常,以下的所有的监测都无法正常。可能最新版本有bug。重新安装老版本就没问题。


# ./check_nrpe -H 192.168.0.53

CHECK_NRPE: No output returned from daemon. //这里显示的信息不正常

#/check_nrpe -H 192.168.0.53 -c CheckProcState -a ShowAll explorer.exe=started winzip.exe=stopped

CHECK_NRPE: No output returned from daemon.


内存监测

http://www.nsclient.org/nscp/wiki/CheckSystem/checkMem

check_nrpe -H IP -p 5666 -c CheckMEM -a MaxWarn=80% MaxCrit=90% ShowAll type=physical type=page type=pagedtype=virtual

type有三项,可在一条语句中一起监测,或者分开监测,如:

#./check_nrpe -H 192.168.0.53 -c CheckMEM -a MaxWarn=80% MaxCrit=90% ShowAll type=physical type=page type=virtual

CPU监测

http://www.nsclient.org/nscp/wiki/CheckSystem/checkCPU

#./check_nrpe -H 192.168.0.53 -c CheckCPU -a warn=80 crit=90 time=20m time=10s time=4

UpTime监测

http://www.nsclient.org/nscp/wiki/CheckSystem/checkUpTime

#./check_nrpe -H 192.168.0.53 -c CheckUpTime -a MinWarn=1d MinCrit=12h

进程监测

http://www.nsclient.org/nscp/wiki/CheckSystem/checkProcState

#./check_nrpe -H 192.168.0.53 -c CheckProcState -a ShowAll explorer.exe=started winzip.exe=stopped


服务监测

http://www.nsclient.org/nscp/wiki/CheckSystem/checkServiceState

#./check_nrpe -H 192.168.0.53 -c CheckServiceState -a ShowAll nscp=started WebClient=stopped

不过,服务监测的输出数据不符合Pnp制图要求。

Counter监测

http://www.nsclient.org/nscp/wiki/CheckSystem/checkCounter

#./check_nrpe -H 192.168.0.53 -c CheckCounter -a "Counter:mutex=\\Objects\\Mutexes" ShowAll MaxWarn=500 MaxCrit=1000

#./check_nrpe -H 192.168.0.53 -c CheckCounter -a "Counter:proc=\\Processor(_total)\\% Processor Time" ShowAll MaxWarn=50 MaxCrit=80