日志分析


  • 业务中会生成大量的系统日志、应用程序日志、安全日志等,通过对日志的分析可以了解服务器的负载、健康状况,可以分析客户的分布情况、客户的行为,甚至基于这些分析可以做出预测

  • 一般采集流程

  • 日志产出 -> 采集(Logstash、Flume、Scribe)-> 存储 -> 分析 -> 存储(数据库、NoSQL)-> 可视化

  • 开源实时日志分析ELK平台

  • Logstash收集日志,并存放到ElasticSearch集群中,Kibana则从ES集群中查询数据生成图表,返回浏览器端

分析的前提

半结构化数据

  • 日志是半结构化数据,是有组织的,有格式的数据。可以分割成行和列,就可以当作表理解和处理,分析里面的数据

文本分析

  • 日志是文本文件,需要依赖文件IO、字符串操作、正则表达式等技术

  • 通过这些技术就能够把日志中需要的数据提取出来

  • 目标数据形如:

123.125.71.36 - - [06/Apr/2017:18:09:25 +0800] "GET / HTTP/1.1" 200 8642 "-" "Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)"
124.```

* nginx、tomcat等WEB Server都会产生这样的日志

### 提取数据
#### 一、分割

import datetime

line = ''' 123.125.71.36 - - [06/Apr/2017:18:09:25 +0800] "GET / HTTP/1.1" 200 8642 "-" "Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)" '''

CHARS = set(" \t")

def makekey(line: str): start = 0 skip = False for i, c in enumerate(line): if not skip and c in '"[': start = i + 1 skip = True elif skip and c in '"]': skip = False yield line[start:i] start = i + 1 continue

    if skip:
        continue

    if c in CHARS:
        if start == i:
            start = i + 1
            continue
        yield line[start:i]
        start = i + 1

else:
    if start < len(line):
        yield line[start:]

names = ('remote', '', '', 'datetime', 'request', 'status', 'length', '', 'useragent')

ops = (None, None, None, lambda timestr: datetime.datetime.strptime(timestr, '%d/%b/%Y:%H:%M:%S %z'), lambda request: dict(zip(['method', 'url', 'protocol'], request.split())), int, int, None, None)

def extract(line: str): return dict(map(lambda item: (item[0], item2 if item[2] is not None else item[1]), zip(names, makekey(line), ops)))

print(extract(line))



#### 二、正则表达式分割

PATTERN = r'''(?P<ip>[\d.]{7,})\s-\s-\s[(?P<datetime>[^[]]+)]\s"(?P<method>[^"\s]+)\s(?P<url>[^"\s]+)\s(?P<protocol>[^"\s]+)"\s(?P<status>\d{3})\s(?P<size>\d+)\s"(?:.+)"\s"(?P<useragent>[^"]+)"''' pattern = re.compile(PATTERN) ops = {'datetime': (lambda x: datetime.datetime.strptime(x, '%d/%b/%Y:%H:%M:%S %z')), 'status': int, 'size': int}

def extract(text):

mat = pattern.match(text)

return {k: ops.get(k, lambda x: x)(v) for k, v in mat.groupdict().items()}

### 异常处理
* 日志中不免会出现一些不匹配的行,需要处理
* 这里使用re.match方法,有可能匹配不上。所以要增加一个判断
* 采用抛出异常的方式,让调用者获得异常并自行处理


PATTERN = r'''(?P<ip>[\d.]{7,})\s-\s-\s[(?P<datetime>[^[]]+)]\s"(?P<method>[^"\s]+)\s(?P<url>[^"\s]+)\s(?P<protocol>[^"\s]+)"\s(?P<status>\d{3})\s(?P<size>\d+)\s"(?:.+)"\s"(?P<useragent>[^"]+)"''' pattern = re.compile(PATTERN)

ops = {'datetime': (lambda x: datetime.datetime.strptime(x, '%d/%b/%Y:%H:%M:%S %z')), 'status': int, 'size': int}

def extract(text) -> dict:

mat = pattern.match(text)

if mat:
    return {k: ops.get(k, lambda x: x)(v) for k, v in mat.groupdict().items()}
else:
    raise Exception('No match')

* 或者返回一个特殊值

def extract(text) -> dict:

mat = pattern.match(text)

if mat:
    return {k: ops.get(k, lambda x: x)(v) for k, v in mat.groupdict().items()}
else:
    return None

## 滑动窗口
### 数据载入

def load(path): with open(path) as f: for line in f: fields = extract(line) if fields: yield fields else: continue



### 时间窗口分析
#### 概念
* 很多数据,例如日志,都是和时间相关的,都是按照时间顺序产生的
* 产生的数据分析的时候,要按照时间求值

* interval表示每一次求值的时间间隔
* width时间窗接口宽度,指一次求值的时间窗口宽度

#### 当width > interval
![](http://i2.51cto.com/images/blog/201805/06/dcb51c3e62188d609bd23a24258d4c9a.png?x-oss-process=image/watermark,size_16,text_QDUxQ1RP5Y2a5a6i,color_FFFFFF,t_30,g_se,x_10,y_10,shadow_20,type_ZmFuZ3poZW5naGVpdGk=)

* 数据求值时会有重叠

#### 当width = interval
![](http://i2.51cto.com/images/blog/201805/06/60ed6922f3de0a664382e74abe59b37e.png?x-oss-process=image/watermark,size_16,text_QDUxQ1RP5Y2a5a6i,color_FFFFFF,t_30,g_se,x_10,y_10,shadow_20,type_ZmFuZ3poZW5naGVpdGk=)
* 数据求值没有重叠

### 时序数据
* 运维环境中,日志、监控等产生的数据都是与时间相关的数据,按照时间先后产生并记录下来的数据,所以一般按照时间对数据进行分析

#### 数据分析基本程序结构
* 无限的生成随机数函数,产生时间相关的数据,返回时间和随机数字典

import random import datetime import time

def source(): while True: yield {'value': random.randint(1, 100), 'datetime': datetime.datetime.now()} time.sleep(1)

s = source() items = [next(s) for _ in range(3)]

def handler(iterable): return sum(map(lambda item: item['value'], iterable)) / len(iterable)

print(items) print("{:.2f}".format(handler(items)))


#### 窗口函数实现
* 将上面的程序扩展为window函数

import random import datetime import time

def source(second=1): while True: yield {'value': random.randint(1, 100), 'datetime': datetime.datetime.now(datetime.timezone(datetime.timedelta(hours=8)))} time.sleep(second)

def window(iterator, handler, width: int, interval: int): start = datetime.datetime.strptime('20170101 000000 +0800', '%Y%m%d %H%M%S %z') current = datetime.datetime.strptime('20170101 010000 +0800', '%Y%m%d %H%M%S %z')

buffer = []
delta = datetime.timedelta(seconds=width - interval)

while True:
    data = next(iterator)
    if data:
        buffer.append(data)
        current = data['datetime']

    if (current - start).total_seconds() >= interval:
        ret = handler(buffer)
        print('{:.2f}'.format(ret))
        start = current
        buffer = [x for x in buffer if x['datetime'] > current - delta]

def handler(iterable): return sum(map(lambda item: item['value'], iterable)) / len(iterable)

window(source(), handler, 10, 5)

![](http://i2.51cto.com/images/blog/201805/06/2ebfb59bbfa252bdb659217107c3e954.png?x-oss-process=image/watermark,size_16,text_QDUxQ1RP5Y2a5a6i,color_FFFFFF,t_30,g_se,x_10,y_10,shadow_20,type_ZmFuZ3poZW5naGVpdGk=)



## 分发
### 生产者消费者模型
* 对于一个监控系统,需要处理很多数据,包括日志。对其中已有数据的采集、分析。
* 被监控对象就是数据的生产者producer,数据的处理程序就是数据的消费者consumer
* 生产者消费者传统模型
![](http://i2.51cto.com/images/blog/201805/06/a91625bb9dd539d840fa3b9c143c958c.png?x-oss-process=image/watermark,size_16,text_QDUxQ1RP5Y2a5a6i,color_FFFFFF,t_30,g_se,x_10,y_10,shadow_20,type_ZmFuZ3poZW5naGVpdGk=)
* 传统的生产者消费者模型,生产者生产,消费者消费。但这种模型有问题
* 开发的代码耦合高,如果生成规模扩大,不易扩展,生产和消费的速度很难匹配等。

* 解决办法:队列
* 作用:解耦、缓冲
![](http://i2.51cto.com/images/blog/201805/06/f76586e967add592d7d6363a31cb432a.png?x-oss-process=image/watermark,size_16,text_QDUxQ1RP5Y2a5a6i,color_FFFFFF,t_30,g_se,x_10,y_10,shadow_20,type_ZmFuZ3poZW5naGVpdGk=)
* 日志生产者往往会部署好几个程序,日志产生的也很多,而消费者也会有很多个程序,去提取日志分析处理
* 数据生产是不稳定的。会造成段时间数据的潮涌,需要缓冲
* 消费者消费能力不一样,有快有慢,消费者可以自己决定消费缓冲区中的数据
* 单机可以使用queue内建的模块构建进程内的队列,满足多个线程间的生产消费需要
* 大型系统可以使用第三方消息中间件:RabbitMQ、RocketMQ、Kafka

### queue模块——队列
* queue.Queue(maxsize=0)
 * 创建FIFO队列,返回Queue对象
 * maxsize小于等于0,队列长度没有限制

* Queue.get(block=True,timeout=None)
 * 从队列中移除元素并返回这个元素
 * block 阻塞,timeout 超时
 * 如果block为True,是阻塞,timeout为None就是一直阻塞
 * 如果block为True但是timeout有值,就阻塞到一定秒数抛出异常
 * block为False,是非阻塞,timeout将被忽略,要么成功返回一个元素,要么抛出empty异常

* Queue.get_nowait()
 * 等价于get(False)

* Queue.put(item,block=True,timeout=None)
 * 把一个元素加入到队列中去
 * block=True,timeout=None,一直阻塞直至有空位放元素
 * block=True,timeout=5,阻塞5秒就抛出Full异常
 * block=True,timeout失效,立刻返回,,一直阻塞直至有空位放元素

* Queue.put_nowait(item)
 * 等价于put(item,False)

### 分发器实现
* 生产者(数据源)生产数据,缓冲到消息队列中

* 数据处理流程:
>  数据加载 -> 提取 -> 分析(滑动窗口函数)

* 处理大量数据的时候,可能需要多个消费者处理
* 需要一个分发器(调度器),把数据分发给不同的消费者处理
* 每一个消费者拿到数据后,有自己的处理函数。所以要有一种注册机制

> 数据加载 -> 提取 -> 分发 -> 分析函数1&分析函数2


* 分析1和分析2可以是不同的handler、窗口宽度、间隔时间

* 暂时采用轮询策略,一对多的副本发送,一个数据通过分发器、发送到多个消费者

* 消息队列
 * 在生产者和消费者之间使用消息队列,那么所有消费者可以共有一个消息队列,或各自拥有一个消息队列
 * 公用一个消息队列需要解决争抢问题。每个消费者拥有一个队列较易实现

* 注册
 * 在调度器内部记录消费者,每一个消费者拥有自己的队列

* 线程
 * 由于一条数据会被多个不同的注册过的handler处理,所以最好的方式就是多线程

### 分发器代码实现

def dispatcher(src): reg_handler = [] queues = []

def reg(handler, width, interval):
    q = Queue()
    queues.append(q)

    thrd = threading.Thread(target=window, args=(q, handler, width, interval))

    reg_handler.append(thrd)

def run():

    for i in reg_handler:
        i.start()

    for item in src:
        for q in queues:
            q.put(item)

return reg, run

reg, run = dispatcher(load('test.log'))

reg(handler, 10, 5) run()


### 整合代码

* load函数就是从日志中提取合格的数据生成函数
* 它可以作为dispatcher函数的数据源

import re from pathlib import Path import datetime import time import threading from queue import Queue from user_agents import parse

PATTERN = r'''(?P<ip>[\d.]{7,})\s-\s-\s[(?P<datetime>[^[]]+)]\s"(?P<method>[^"\s]+)\s(?P<url>[^"\s]+)\s(?P<protocol>[^"\s]+)"\s(?P<status>\d{3})\s(?P<size>\d+)\s"(?:.+)"\s"(?P<useragent>[^"]+)"''' pattern = re.compile(PATTERN)

def extract(text): ops = {'datetime': (lambda x: datetime.datetime.strptime(x, '%d/%b/%Y:%H:%M:%S %z')), 'status': int, 'size': int, 'useragent': lambda x: parse(x)}

mat = pattern.match(text)

return {k: ops.get(k, lambda x: x)(v) for k, v in mat.groupdict().items()}

def openfile(filename): with open(filename) as f: for text in f: fields = extract(text) time.sleep(2) if fields: yield fields else: continue

producer

def load(*pathnames): for path in pathnames: pathname = Path(path) if not pathname.exists(): continue

    if pathname.is_file():
        yield from openfile(pathname)

    elif pathname.is_dir():
        for filename in pathname.iterdir():
            if filename.is_file():
                yield from openfile(filename)

def sum_size_handler(iterable): return sum(map(lambda x: x['size'], iterable))

def status_handler(iterable): status = {} for dic in iterable: key = dic['status'] status[key] = status.get(key, 0) + 1

return {k: v / len(iterable) for k, v in status.items()}

d = {}

def ua_handler(iterable): ua_family = {} for item in iterable: val = item['useragent'] key = (val.browser.family, val.browser.version_string) ua_family[key] = ua_family.get(key, 0) + 1 d[key] = d.get(key, 0) + 1 return ua_family, d

consumer

def window(q: Queue, handler, width, interval): st_time = datetime.datetime.strptime('19700101 000000 +0800', '%Y%m%d %H%M%S %z') cur_time = datetime.datetime.strptime('19700101 010000 +0800', '%Y%m%d %H%M%S %z')

buffer = []

while True:
    # src = next(iterable)
    src = q.get()
    print(src)
    buffer.append(src)

    cur_time = src['datetime']

    if (cur_time - st_time).total_seconds() > interval:
        val = handler(buffer)
        st_time = cur_time
        b, d = val
        d = sorted(d.items(), key=lambda x: x[1], reverse=True)
        print(val)
        print(d)
    buffer = [x for x in buffer if x['datetime'] > (cur_time - datetime.timedelta(seconds=width - interval))]

def dispatcher(src): reg_handler = [] queues = []

def reg(handler, width, interval):
    q = Queue()
    queues.append(q)

    thrd = threading.Thread(target=window, args=(q, handler, width, interval))

    reg_handler.append(thrd)

def run():

    for i in reg_handler:
        i.start()

    for item in src:
        for q in queues:
            q.put(item)

return reg, run

if name == 'main': import sys

# path=sys.argv[1]
path = 'test.log'

reg, run = dispatcher(load('test.log'))

reg(sum_size_handler, 20, 5)

reg(status_handler, 20, 5)

reg(ua_handler, 20, 5) run()


## 完成分析功能
* 分析日志很重要,通过海量数据分析就能够知道是否遭受了攻击,是否被爬取及爬取高峰期,是否有盗链等

### 状态码分析
* 状态码中包含了很多信息。例如
 * 304,服务器收到客户端提交的请求参数,发现资源未变化,要求浏览器使用静态资源的缓存
 * 404,服务器找不到大请求的资源
 * 304占比大,说明静态缓存效果明显。404占比大,说明网站出现了错误链接,或者尝试嗅探网站资源
 * 如果400、500占比突然增大,网站一定出了问题。

def status_handler(iterable): status = {} for dic in iterable: key = dic['status'] status[key] = status.get(key, 0) + 1

return {k: v / len(iterable) for k, v in status.items()}

## 浏览器分析
### useragent
* 这里指的是,软件按照一定的格式向远端的服务器提供一个表示自己的字符串
* 在HTTP协议中,使用useragent字段传送这个字符串

> 浏览器选项中可以修改此设置

### 信息提取
#### 安装

pip install pyyaml ua-parser user-agents


#### 数据分析

d = {}

def ua_handler(iterable): ua_family = {} for item in iterable: val = item['useragent'] key = (val.browser.family, val.browser.version_string) ua_family[key] = ua_family.get(key, 0) + 1 d[key] = d.get(key, 0) + 1 return ua_family, d