虽然对于磁盘的监控属于最基础的监控,但是很多时候往往因为疏忽而忽略监控磁盘,最终导致事故发生,磁盘监控还是需要重视起来。本案例就是要监控磁盘使用率。
具体要求如下:
1)每分钟检测一次磁盘状况; 2)当磁盘空间使用率或inode使用率高于90%,需要发邮件告警,假设收件邮箱为admin@admin.com ; 3)统计使用率超过90%的分区所有子目录的大小,并把排名前3的子目录写到邮件内容中发给上面的邮箱; 4)第一次告警后,如果没有及时处理,则需要每隔30分钟告警一次; 5)每分钟脚本执行时,需要检查脚本是否执行完,如果没有执行完则本次不执行。
邮件脚本如下:
#!/usr/bin/python#coding:utf-8import smtplibfrom email.mine.text import MIMETextimport sys mail_host = 'stmp.163.com'mail_user = 'test@163.com'mail_pass = 'your_mail_password'mail_postfix = '163.com'def send_mail(to_list,subject,content): me = "zabbix 监控告警平台"+"<"+mail_user+"@"+mail_postfix+">" msg = MIMEText(content,'plain','utf-8') msg['Subject'] = subject msg['From'] = me msg['to'] = to_list try: s = smtplib:SMTP() s.connect(mail_host) s.login(mail_user,mail_pass) s.sendmail(me,to_list,msg.as_string()) s.close() return True except Exception,e: print str(e) return Falseif __name__ == "__main__" send_mail(sys.argv[1], sys.argv[2], sys.argv[3])
参考脚本如下:
# vim /usr/local/sbin/disk_check.sh
#!/bin/bash#监控磁盘使用情况,做邮件告警及告警收敛#把脚本名字存入变量s_names_name=`echo $0|awk -F '/' '{print $NF}'`#定义收件人邮箱mail="/usr/local/sbin/mail.py"mail_user=admin@admin.com#定义检查磁盘空间使用率函数chk_sp(){ df -m |sed '1d' |awk -F '%| +' '$5>90 {print $7,$5}' > /tmp/chk_sp.log n=`wc -l /tmp/chk_sp.log |awk '{print $1}'` if [ $n -gt 0 ] then tag=1 for d in `awk '{print $1}' /tmp/chk_sp.log` do find $d -type d |sed '1d' |xargs du -sm |sort -nr |head -3 #找到使用率超过90%的分区下面大小排名前3的子目录 done > /tmp/most_sp.txt fi}#定义检查inode使用率函数chk_in(){ df -i |sed '1d' |awk -F '%| +' '$5>90 {print $7,$5}' > /tmp/chk_in.log n=`wc -l /tmp/chk_in.log |awk '{print $1}'` if [ $n -gt 0 ] then tag=2 fi}#定义告警函数m_mail(){ log=$1 t_s=`date +%s` t_s2=`date -d "1 hour ago" +%s` if [ ! -f /tmp/$log ] then touch /tmp/$log #创建$log文件 chattr +a /tmp/$log #增加a权限,仅允许追加内容 echo $t_s2 >> /tmp/$log #第一次告警,可直接写入1小时前的时间戳 fi t_s2=`tail -1 /tmp/$log |awk '{print $1}'` #查看$log文件最后一行的时间戳 echo $t_s >> /tmp/$log #取出最后一行即上次告警的时间戳后,立即写入当前的时间戳 v=$[$t_s-$t_s2] #取两次时间戳差值 if [ $v -gt 1800 ] #差值如果超过1800s,立即发邮件 then python $mail $mail_user "磁盘使用率超过90%" "`cat $2`" 2>/dev/null #发邮件,$2为mail函数第二个参数,这里是一个文件 echo "0" > /tmp/$log.count #定义计时器临时文件,并写入0 else if [ ! -f /tmp/$log.count ] then echo "0" > /tmp/$log.count #如果计时器临时文件不存在,需要创建并写入0 fi nu=`cat /tmp/$log.count` nu2=$[$nu+1] #30分钟内每发生一次告警,计数器加1 echo $nu2 > /tmp/$log.count if [ $nu2 -gt 30 ] then python $mail $mail_user "磁盘使用率超过90%已经持续30分钟了" "`cat $2`" 2>/dev/null echo "0" > /tmp/$log.count #第二次告警后,计数器归0 fi fi}#把进程情况存入临时文件ps aux |grep "$s_name" |grep -vE "$$|grep" > /tmp/ps.tmp p_n=`wc -l /tmp/ps.tmp |awk '{print $1}'`#当进程数大于0,则说明上次的脚本还未执行完if [ $p_n -gt 0 ]then exitfichk_sp chk_inif [ $tag == 1 ] then m_mail chk_sp /tmp/most_sp.txt #执行m_mail函数发送邮件,$1是chk_sp,$2是/tmp/most_sp.txtelif [ $tag == 2 ]then m_mail chk_in /tmp/chk_in.log #执行m_mail函数发送邮件,$1是chk_in,$2是/tmp/chk_in.logfi
增加计划任务:
* * * * * /bin/bash /usr/local/sbin/disk_check.sh
脚本中,
1)$0表示脚本本身,awk中$NF表示最后一段的值,去掉绝对路径,剩下脚本名字写入变量$s_name
2)$$
为本进程PID,grep -vE "$$|grep"
排除本进程和grep进程