刚刚.....就在刚刚,我给自己跪了。原本想运行crontab -e 添加一个任务定时来监控服务器网卡带宽峰值,莫名其妙按了个r。没错!就是crontab -r 这种操做。原本30多条定时任务的配置记录被清空了,还不带备份。瞬间,懵逼了,这个是线上环境。

下载.jpg

我不想说话,默默地开始搬砖,毕竟是自己删的crontab,跪着也要找回来。

1、从日志记录中将今天内执行过的定时任务命令输出到文档a.txt

#cat /var/log/cron |awk '$1~/^Apr$/&&$2~/^25/'   >>a.txt

匹配第一列是月份Apr 第二列是25 也就是今天内的日志输出到a.txt

2、看执行的命令和时间,去重,添加回去。

5分钟时间,算是给恢复了,哎!自己挖坑,自己填,开心就好!


下次还是乖乖定时备份一下crontab吧


眼看还没到下班时间,来更新一下许久未更新的博客。干脆把python监控服务器网卡宽带的脚本贴出来,给正在学python的新手们,指引前进的方向,从入门到放弃。

场景需求:我有一台阿里云服务器,峰值是5M带宽,阿里云自身已经提供完整的流量监控图,奈何就是不提供当网卡带宽达到阈值的时候,邮件通知。那就得徒手写一个脚本,通过iftop捕捉网卡的峰值带宽值,判断如果小于5M,直接pass。万一超了5M,就触发邮件通知,检查是业务量大了,还是流量异常。


有老司机可能会说,监控个网卡流量,上cacti,上nagios,上zabbix 吧啦吧啦.......这个看需求吧,如果是自建的IDC机器多,上zabbix,便于监控。只是一台或数台云主机的话,上个脚本,定时捕捉一下快照就可以了,简单,省事,还不耗服务器资源。

废话少说了,还是来点实际的吧。上代码.......


想起以前刚学python的时候,看别人的代码,啥也看不懂。张三李四陈五王六,傻傻分不清楚,差点就放弃入门了。为了初学者能看明白,附上明细的注释。


#!/usr/bin/env python      #指定解释器

#-*- encoding:utf-8 -*-    #指定字符编码,为了可以编码下面的中文

#date:2018-04-25

#author:soul

import commands

import time

import os

import sys                  #导入以上几个内置模块

from smtp import smtp       #从另一个python脚本smtp中导入smtp方法,用于发送邮件,smtp部分脚本可以看阿里云官方脚本

ip = 'xxxxxxxxx'             #定义变量ip指定主机ip地址,便于在邮件中易读

servername = "主机名称"      #定义变量servername指定主机名,便于在邮件中易读

os.chdir('/tmp')             #通过内置os模块的chdir方法切换为tmp目录下

def iftop_to_tmp_log():      #创建一个函数方法,名为iftop_to_tmp_log

    try: 

        os.system('iftop -i eth0 -N -P -t -L 50 -s 20 > /tmp/iftop.log')   

        #通过内置模块os的system方法,执行shell命令。运行iftop 获取20s内的网卡数据输出到tmp目录的iftop.log文件中

    time.sleep(2) #让程序休眠2秒钟,实际上没什么意义。纯粹是累了,需要中场休息.......

    except:                                     #假设上面shell无法执行,自定义抛出异常

        print "iftop -i eth0 is failure"


def compare_rate():          #创建一个函数方法,名为compare_rate自定义,作用为读取iftop.log文件数据做判断对比

        if os.path.exists('/tmp/iftop.log') is True:   #先判断/tmp/iftop.log文件是否存在,如果不存在返回后面的else部分

           (status, output) = commands.getstatusoutput("tail -n 4 iftop.log |grep 'Peak' |awk {'print $4,$5'}")   

           #指定变量status,output接收内置模块commands,getstatusoutput方法执行shell命令用awk切割第4 5列的数据

           #对应的是发送和接收的峰值rate数据  760Kb 1.80Mb

           #iftop.log源文件数据为Peak rate (sent/received/total): 760Kb 1.80Mb 2.54Mb

           T_sent = output.split()[0]     #定义变量T_sent接收切割出来的数据组[760Kb,1.80Mb]的第一位即760Kb 备注:python第一位是从0开始的

           R_receive = output.split()[1] #定义变量R_receive接收切割出来的数据组列表[760Kb,1.80Mb]的第2位即1.80Mb 

           T_reat =  T_sent[:-2] #定义变量T_reat截取T_sent即760Kb中除了后面两位的数据即:760

           T_unit = T_sent[-2::] #定义变量T_unit截取T_sent即760Kb中后面两位的数据即:Kb  截取这个单位是由于可能存在Kb,Mb的两种情况

           R_reat = R_receive[:-2]#同上,截取接收的数据值

           R_unit = R_receive[-2::]#同上,截取接收的数据单位

           print "接收速率为%s:%s/s  发送速率为%s:%s/s " %(R_reat,R_unit,T_reat,T_unit)   #打印以上截取到的收发数据和单位值

           if R_unit =='Kb':    #判断,如果接收数据的单位为Kb,不做任何处理,毕竟还没达到带宽阈值。

              print "当前接收速率为%sKb/s" %R_reat      #前面的%s是一个字符串的占位符   用于接收后面传入的参数值R_reat

           else:  #如果接收数据的单位不是Kb,那就是Mb了。本机阿里云买的是5M带宽

              if float(R_reat) <=5:   #由于上面的数据有小数点,是浮点数,用float  当前判断,如果单位为Mb,又小于5M,没有达到阈值,不做告警通知

                 print "当前Incoming接收速率峰值在可允许范围,接收速率为%sMb/s" %R_reat     #纯粹打印出来瞄一眼

              else: #否则,如果接收的数据单位为Mb同时数据值又大于5,比当前购买的带宽值大,则需要通知加带宽了。

                 now_time=datetime.datetime.now().strftime("%Y-%m-%d %H:%M:%S")  #定于一个变量now_time 设定当前时间

                 title = "%s服务器带宽均值异常通知" %servername      #定义邮件的标题  将主机名servername作为参数传入

                 content = "当前时间:%s host:%s servername:%s eth0网卡入口流量已超所购买带宽5M上限,当前Incoming接收速率为%sMb/s,请检查" %(now_time,ip,servername,R_reat)

                 #定义变量content指定邮件内容,将当前时间,主机ip,主机名传入

                 nickname = "服务器带宽流量监控服务"  #定义变量nickname指定邮件昵称

                 smtp(title,content,nickname) #调用头部导入的邮件发送模块smtp的smtp中的方法,将标题,内容,昵称作为参数传入

                 #不得不说用阿里云自带的邮件服务就是溜得飞起,每天邮件随便发,配置简单,官网有完整的代码文档

           if T_unit == 'Kb':     #下面的所有判断跟上面相同,上面是判断接收部分的数据,下面判断的是发送部分的数据

               print "当前发送速率为%sKb/s" %T_reat

           else:

              if float(T_reat) <=5:

                 print "当前Outgoing发送速率均值在可允许范围,发送速率为%sMb/s" %T_reat

              else:

                 now_time=datetime.datetime.now().strftime("%Y-%m-%d %H:%M:%S")

                 title = "%s服务器带宽均值异常通知" %servername

                 content = "当前时间:%s host:%s servername:%s eth0网卡出口流量已超购买带宽5M上限,当前Outgoing发送速率为%sMb/s,请检查" %(now_time,ip,servername,T_reat)

                 nickname = "服务器带宽流量监控服务"

                 smtp(title,content,nickname)

        else:

           print "The file iftop.log is not exists "   #如果iftop.log文件不存在,打印提示

           sys.exit()  #退出


if __name__=='__main__':

    iftop_to_tmp_log()  #代码首先执行函数iftop_to_tmp_log  捕捉网卡宽带数据输出到iftop.log文件

    compare_rate()      #然后执行函数compare_rate,从iftop.log中读出数据并判断,未达带宽阈值不处理,超出阈值通知增加带宽,或检查是否有恶意***,占用流量

    sys.exit()