Day 10
要编写一个告警系统的主脚本,这里是放在了/usr/local/sbin/目录下,这个主脚本的文件名称为main.sh,在编写脚本之前我们还需要创建一个完整的目录结构:
[root@localhost ~]# cd /usr/local/sbin/ [root@localhost /usr/local/sbin]# mkdir mon [root@localhost /usr/local/sbin]# cd mon [root@localhost /usr/local/sbin/mon]# mkdir bin conf shares log mail [root@localhost /usr/local/sbin/mon]# cd bin [root@localhost /usr/local/sbin/mon/bin]#vim main.sh
main.sh内容 #!/bin/bash #Written by aming.
是否发送邮件的开关
export send=1
过滤ip地址
export addr=/sbin/ifconfig |grep -A1 "ens33: "|awk '/inet/ {print $2}'
dir=pwd
只需要最后一级目录名
last_dir=echo $dir|awk -F'/' '{print $NF}'
下面的判断目的是,保证执行脚本的时候,我们在bin目录里,不然监控脚本、邮件和日志很有可能找不到
if [ $last_dir == "bin" ] || [ $last_dir == "bin/" ]; then
conf_file="../conf/mon.conf"
else
echo "you shoud cd bin dir"
exit
fi
exec 1>>../log/mon.log 2>>../log/err.log
echo "date +"%F %T"
load average"
/bin/bash ../shares/load.sh
#先检查配置文件中是否需要监控502
if grep -q 'to_mon_502=1' $conf_file; then
export log=grep 'logfile=' $conf_file |awk -F '=' '{print $2}' |sed 's/ //g'
/bin/bash ../shares/502.sh
fi
主脚本编写完之后,就是编写配置文件,配置文件比较简单里面主要就是一些定义开关的开启关闭状态和日志文件路径等内容。 配置文件要放在/usr/local/sbin/mon/conf/下,文件名称必须为mon.conf:
mon.conf内容
to config the options if to monitor
定义mysql的服务器地址、端口以及user、password
to_mon_cdb=0 ##0 or 1, default 0,0 not monitor, 1 monitor db_ip=10.20.3.13 db_port=3315 db_user=username db_pass=passwd
httpd 如果是1则监控,为0不监控
to_mon_httpd=0
php 如果是1则监控,为0不监控
to_mon_php_socket=0
http_code_502 需要定义访问日志的路径
to_mon_502=1 logfile=/data/log/xxx.xxx.com/access.log
request_count 定义日志路径以及域名
to_mon_request_count=0 req_log=/data/log/www.discuz.net/access.log domainname=www.discuz.net
参数的具体配置可以自定义
mail.sh: 在编写mail.sh之前,先得准备一个发送邮件的功能性脚本,因为这个告警系统会在监控项出现问题的时候发送告警邮件,所以还需要编写一个能够发送邮件的脚本 #!/bin/bash
拿到当前脚本的第一个参数,也就是之前在子脚本中定义的监控项的标识与机器IP
log=$1
当前的时间戳
t_s=date +%s
两个小时之前的时间戳
t_s2=date -d "2 hours ago" +%s
判断日志是否不存在
if [ ! -f /tmp/$log ] then # 如果日志不存在就生成一个日志,这个日志的第一行就是两个小时之前的时间戳 echo $t_s2 > /tmp/$log fi
截取日志文件的最后一行,也就是拿出上一次的时间戳
t_s2=tail -1 /tmp/$log|awk '{print $1}'
把当前的时间戳写入到日志里
echo $t_s>>/tmp/$log
计算两个时间戳的时间差
v=$[$t_s-$t_s2] echo $v
如果时间差大于一个小时,也就是第一次出现告警
if [ $v -gt 3600 ]
then
# 就发送告警邮件
/usr/bin/python /usr/local/sbin/mon/mail/mail.py $1 $2 $3
# 并且生成一个新的日志,用于记录告警持续的次数
echo "0" > /tmp/$log.txt
else
# 时间差小于一小时就代表不是第一次告警了,所以判断一下log.txt文件是否存在
if [ ! -f /tmp/$log.txt ]
then
# 不存在就生成一个
echo "0" > /tmp/$log.txt
fi
# 拿出log.txt文件的内容
nu=cat /tmp/$log.txt
# 进行计数
nu2=$[$nu+1]
# 然后再写入到log.txt中,其实这个文件就相当于是一个计数器
echo $nu2>/tmp/$log.txt
# 判断计的数是否大于10
if [ $nu2 -gt 10 ]
then
# 是的话就发送一个告警邮件说明告警持续10分钟了
/usr/bin/python /usr/local/sbin/mon/mail/mail.py $1 "trouble continue 10 min $2" "$3"
# 重新计数
echo "0" > /tmp/$log.txt
fi
fi
运行这个告警系统要写一个任务计划,每分钟执行一次 main.sh 主脚本:
[root@localhost ~]# crontab -e
-
-
-
-
- cd /usr/local/sbin/mon/bin; sh main.sh
-
-
-