20.23/20.24/20.25 告警系统邮件引擎

  • 告警邮件引擎核心,conf主配置文件调用到的都是mail.sh ,所以这里需要定义调用mail.py的sh脚本
  • mail.sh目的是做告警收敛,如果不想做告警收敛,在发现问题的时候直接告警就好,但是,可能会发生1分钟前发现问题,1分钟户问题解决,这样就会变成误报,这样会很麻烦
  • 收敛的目的就是1分钟前发现问题,然后到10分钟后,服务还没有恢复,就会告诉管理人员10分钟了服务还未恢复

mail目录下创建mail.py文件
mail.py文件内容如下:

#!/usr/bin/env python
#-*- coding: UTF-8 -*-
import os,sys
reload(sys)
sys.setdefaultencoding('utf8')
import getopt
import smtplib
from email.MIMEText import MIMEText
from email.MIMEMultipart import MIMEMultipart
from  subprocess import *
def sendqqmail(username,password,mailfrom,mailto,subject,content):
    gserver = 'smtp.163.com'
    gport = 25
    try:
        msg = MIMEText(unicode(content).encode('utf-8'))
        msg['from'] = mailfrom
        msg['to'] = mailto
        msg['Reply-To'] = mailfrom
        msg['Subject'] = subject
        smtp = smtplib.SMTP(gserver, gport)
        smtp.set_debuglevel(0)
        smtp.ehlo()
        smtp.login(username,password)
        smtp.sendmail(mailfrom, mailto, msg.as_string())
        smtp.close()
    except Exception,err:
        print "Send mail failed. Error: %s" % err
def main():
    to=sys.argv[1]
    subject=sys.argv[2]
    content=sys.argv[3]
##定义QQ邮箱的账号和密码,你需要修改成你自己的账号和密码(请不要把真实的用户名和密码放到网上公开,否则你会死的很惨)
    sendqqmail('aiker@163.com','xxxxxxx','aiker@163.com',to,subject,content)
if __name__ == "__main__":
    main()

 #####脚本使用说明######
#1. 首先定义好脚本中的邮箱账号和密码
#2. 脚本执行命令为:python mail.py 目标邮箱 "邮件主题" "邮件内容"

mail.sh文件内容如下
在mail目录下创建脚本mail.sh ,当系统服务异常的时候就会调用mail.sh

#增加如下内容:

log=$1
t_s=`date +%s`
t_s2=`date -d "2 hours ago" +%s`
if [ ! -f /tmp/$log ]
then
    echo $t_s2 > /tmp/$log
fi
t_s2=`tail -1 /tmp/$log|awk '{print $1}'`
echo $t_s>>/tmp/$log
v=$[$t_s-$t_s2]
echo $v
if [ $v -gt 3600 ]
then
    ./mail.py  $1  $2  $3
    echo "0" > /tmp/$log.txt
else
    if [ ! -f /tmp/$log.txt ]
    then
        echo "0" > /tmp/$log.txt
    fi
    nu=`cat /tmp/$log.txt`
    nu2=$[$nu+1]
    echo $nu2>/tmp/$log.txt
    if [ $nu2 -gt 10 ]
    then
         ./mail.py  $1 "trouble continue 10 min $2" "$3"
         echo "0" > /tmp/$log.txt
    fi
fi  
  • 该脚本运用于,间隔3600 故障;10分钟内故障;间歇性故障;
  • 核心判断:计时、计数

    20.26 运行告警系统

创建定时任务
#写一个脚本进入到目录自动每分钟执行一次main.sh脚本

#crontab -e  
#写入内容
* * * * * cd /usr/local/sbin/mon/bin ; bahs main.sh
  • 监控发送邮件的部分,尽量少用空格,因为mail.py发送邮件是以 空格来定义三个参数的