logstash收集mysql原理 logstash文件采集

转载

编程思想者 2024-02-06 22:25:21

文章标签 logstash收集mysql原理 elk elasticsearch 大数据数据 文章分类 MySQL 数据库

一、logstash数据采集

1.简介

1、Logstash是一个开源的服务器端数据处理管道，拥有200多个插件，能够同时从多个来源采集数据，转换数据，然后将数据发送到您最喜欢的 “存储库” 中。（大多都是 Elasticsearch）；

2、 Logstash管道有两个必需的元素，输入和输出，以及一个可选元素过滤器。

logstash收集mysql原理 logstash文件采集_logstash收集mysql原理

（1）输入：采集各种样式、大小和来源的数据。

Logstash 支持各种输入选择，同时从众多常用来源捕捉事件。能够以连续的流式传输方式，轻松地从您的日志、指标、Web 应用、数据存储以及各种 AWS 服务采集数据。

logstash收集mysql原理 logstash文件采集_elk_02

（2）过滤器：实时解析和转换数据

数据从源传输到存储库的过程中，Logstash 过滤器能够解析各个事件，识别已命名的字段以构建结构，并将它们转换成通用格式，以便更轻松、更快速地分析和实现商业价值。

利用 Grok 从非结构化数据中派生出结构
从 IP 地址破译出地理坐标
将 PII 数据匿名化，完全排除敏感字段
简化整体处理，不受数据源、格式或架构的影响

（3）输出：选择您的存储库，导出数据

尽管 Elasticsearch 是我们的首选输出方向，能够为我们的搜索和分析带来无限可能，但它并非唯一选择。Logstash 提供众多输出选择，您可以将数据发送到您要指定的地方，并且能够灵活地解锁众多下游用例。

logstash收集mysql原理 logstash文件采集_大数据_03

2.Logstash安装与部署

官网点击下载Logstash软件包，并准备java的jdk包（logstash是用java开发的）；

准备新的虚拟机server10（172.25.36.10），分配内存1G。

logstash收集mysql原理 logstash文件采集_elk_04

真机将所需安装包传给server10

logstash收集mysql原理 logstash文件采集_elk_05

server10安装jdk和logstash

logstash收集mysql原理 logstash文件采集_数据_06

3.Logstash命令行测试

进入logstash以下路径（二进制脚本，包含用来启动的logstash和安装插件的logstash-plugin）

logstash收集mysql原理 logstash文件采集_大数据_07

标准输入到标准输出（即命令行输入，命令行输出）

logstash收集mysql原理 logstash文件采集_大数据_08

输入hello word，标准输出hello word；输入hello linux，标准输出hello linux

logstash收集mysql原理 logstash文件采集_elk_09

4.Logstash文件测试

a. 命令行输入，输出到文件

在/etc/logstash/conf.d/目录下，以.conf结尾的文件都可以读到，编辑test.conf文件；

[root@server10 conf.d]# cat test.conf 
input {
	stdin {}		%输入来自命令行标准输入
}

output {
 file {				%输出到/tmp/testfile文件中（输出的文件路径），格式为custom format: {输入内容}
   path => "/tmp/testfile"
   codec => line { format => "custom format: %{message}"}
 }
}

message变量可以将输入的值显示出来（在stdin中输入的数据都可以被messag截获）；

执行test.conf文件

logstash收集mysql原理 logstash文件采集_大数据_10

命令行输入hello world

logstash收集mysql原理 logstash文件采集_elk_11

可以看到，输出到了/tmp/testfile文件中

logstash收集mysql原理 logstash文件采集_elasticsearch_12

由于上面的方法无法在终端直接看到结果，修改test.conf文件，加入stdout {}

[root@server10 conf.d]# cat test.conf 
input {
	stdin {}		
}

output {
	stdout{}		%一份标准输出到命令行
			
 file {				%一份输出到/tmp/testfile文件中
   path => "/tmp/testfile"
   codec => line { format => "custom format: %{message}"}
 }
}

logstash收集mysql原理 logstash文件采集_elasticsearch_13

执行test.conf文件，输入redhat linux，可以看到标准输出，在/tmp/testfile文件中也有输出

logstash收集mysql原理 logstash文件采集_elasticsearch_14

b. 命令行输入，输出到elasticsearch主机

编辑es.conf 文件

[root@server10 conf.d]# cat es.conf 
input {
	stdin {}
}

output {
	stdout {}			%标准输出一份

	elasticsearch {		%给elasticsearch输出一份
		hosts => ["172.25.36.7:9200"]	%目标elasticsearch主机ip与端口
		index => "logstash-%{+yyyy.MM.dd}"	%定制**索引名称**，索引格式为logstash-年月日
	}
}

执行es.conf 文件

logstash收集mysql原理 logstash文件采集_elasticsearch_15

输入welcome lr，标准输出一份

logstash收集mysql原理 logstash文件采集_数据_16

网页查看es主机

logstash收集mysql原理 logstash文件采集_数据_17

点击数据浏览->指定索引logstash-2021.08.14，可以看到elasticsearch输出一份

logstash收集mysql原理 logstash文件采集_大数据_18

查看数据

logstash收集mysql原理 logstash文件采集_logstash收集mysql原理_19

c. 文件输入，输出到elasticsearch主机

现在我们想把日志文件作为输入，输出到es主机；

首先要把权限改为644，因为logstash是以logstash身份运行，所以必须开放/var/log/message读的权力。

logstash收集mysql原理 logstash文件采集_logstash收集mysql原理_20

修改es.conf 文件

[root@server610conf.d]# cat es.conf 
input {
	file {				%从文件/var/log/messages输入，从头开始输入
		path => "/var/log/messages"
		start_position => "beginning"
	}
}

output {
	stdout {}			%标准输出

	elasticsearch {		%输出elasticsearch
		hosts => ["172.25.36.7:9200"]	
		index => "logstash-%{+yyyy.MM.dd}"	
	}
}

执行es.conf 文件

logstash收集mysql原理 logstash文件采集_logstash收集mysql原理_21

可以看到输入了很多/var/log/messages

logstash收集mysql原理 logstash文件采集_大数据_22

elasticsearch也可以看到很多数据

logstash收集mysql原理 logstash文件采集_大数据_23

logstash收集mysql原理 logstash文件采集_logstash收集mysql原理_24

假如我们把刚才创建的索引删除了，再次创建可以恢复吗？

删除索引

logstash收集mysql原理 logstash文件采集_数据_25

再次执行es.conf 文件，会发现没有数据输入

logstash收集mysql原理 logstash文件采集_elk_26

logstash收集mysql原理 logstash文件采集_elasticsearch_27

由于终端被占用了，再开启一个窗口，输入一条日志

logstash收集mysql原理 logstash文件采集_elasticsearch_28

现在再返回去看，有输入了，一个是远程登录，一个是刚创建的日志，都是新的日志，没有旧的日志（防止数据冗余）；

可以看到登陆信息

logstash收集mysql原理 logstash文件采集_数据_29

查看数据

logstash收集mysql原理 logstash文件采集_大数据_30

再次删除logstash索引

logstash收集mysql原理 logstash文件采集_logstash收集mysql原理_31

logstash如何区分设备、文件名、文件的不同版本：logstash会把进度保存到sincedb文件中；

.sincedb文件在/usr/share/logstash/data/plugins/inputs/file/目录下，它负责记录数据的偏移量，之前读取到哪个位置了，下一次不会重复输入，所以如果删除这个文件（删除记录的进度），就可以重新全部输入了。

sincedb文件一共6个字段：
inode编号；2. 文件系统的主要设备号；3. 文件系统的次要设备号；4. 文件中的当前字节偏移量；5. 最后一个活动时间戳（浮点数）； 6. 与此记录匹配的最后一个已知路径。

logstash收集mysql原理 logstash文件采集_logstash收集mysql原理_32

再次执行es.conf 文件

logstash收集mysql原理 logstash文件采集_数据_33

可以看到/var/log/messages的数据又全部输入了一遍

logstash收集mysql原理 logstash文件采集_大数据_22

数据输入到elasticsearch了

logstash收集mysql原理 logstash文件采集_elk_35

d. logstash可以伪装成日志服务器，直接接受远程日志

如果按照前面的方法收集日志信息，需要每台服务器上都部署logstash，这样太繁琐了，我们可以让logstash伪装成日志服务器，每个节点服务器远程发送日志给logstash。
编辑es.conf 文件

[root@server10 conf.d]# cat es.conf 
input {
	#file {
	#	path => "/var/log/messages"
	#	start_position => "beginning"
	#}
	
	syslog {		%伪装syslog，开放端口514
		port => 514     %日志收集端口（默认）
	}
}

output {
	stdout {}

	elasticsearch {
		hosts => ["172.25.36.10:9200"]
		index => "syslog-%{+yyyy.MM.dd}"	%索引为syslog-年月日
	}
}

执行es.conf 文件

logstash收集mysql原理 logstash文件采集_logstash收集mysql原理_36

查看端口514已开放

logstash收集mysql原理 logstash文件采集_大数据_37

server7编辑/etc/rsyslog.conf文件，重启rsyslog服务

logstash收集mysql原理 logstash文件采集_大数据_38

打开514UDP端口

logstash收集mysql原理 logstash文件采集_elasticsearch_39

所有的日志发送给172.25.36.10：514

logstash收集mysql原理 logstash文件采集_logstash收集mysql原理_40

查看logstash上的标准输出，可以看到server10的窗口有输入了

logstash收集mysql原理 logstash文件采集_大数据_41

现在elasticsearch就可以看到server7的日志了

logstash收集mysql原理 logstash文件采集_大数据_42

同理，修改远程主机server9的/etc/rsyslog.conf文件

logstash收集mysql原理 logstash文件采集_logstash收集mysql原理_43

打开514UDP端口

logstash收集mysql原理 logstash文件采集_elasticsearch_39

所有的日志发送给172.25.36.10：514

logstash收集mysql原理 logstash文件采集_logstash收集mysql原理_40

查看logstash上的标准输出

logstash收集mysql原理 logstash文件采集_logstash收集mysql原理_46

elasticsearch可以看到server9的日志了

logstash收集mysql原理 logstash文件采集_elk_47

二、logstash多行过滤插件

1.命令行多行输入，文件输出

多行过滤可以把多行日志记录合并为一行事件，编辑test.conf文件

[root@server10 conf.d] cat test.conf 
input {
      stdin {
          codec => multiline {	%多行输入
            pattern => "EOF"	%结束标志词为EOF
            negate => "true"
            what => "previous"
          }
        }
}

output {
	stdout {}

 file {				
   path => "/tmp/testfile"		%输出到文件/tmp/testfile
   codec => line { format => "custom format: %{message}"}	
   								%格式为custom format:{数据}
 }
}

执行test.conf文件

logstash收集mysql原理 logstash文件采集_logstash收集mysql原理_48

测试：多行输入，以EOF结束输入，可以看到标准输出是一条

logstash收集mysql原理 logstash文件采集_elk_49

2.文件多行输入，输出到elasticsearch

接下来用文件输入来测试，使用es集群的server7的日志（之前有一些报错日志，可以作为测试样本），把my-es.log发给server10的/var/log

logstash收集mysql原理 logstash文件采集_elk_50

logstash收集mysql原理 logstash文件采集_elasticsearch_51

正确的日志都是以时间开头的，并且被中括号[ ]括起来的一行，而错误日志有很多行，比如下图的at org开头的这些，他们合起来应该是一条错误日志。

logstash收集mysql原理 logstash文件采集_elk_52

修改test.conf文件，先不加多行输入模块，看效果

[root@server10 conf.d] cat test.conf 
input {
      file {		
        path => "/var/log/my-es.log"	%文件/var/log/my-es.log作为输入
        start_position => "beginning"	%从头开始输入
         # codec => multiline {
         #   pattern => "EOF"
         #   negate => "true"
         #   what => "previous"
         # }
      }
}

output {
	stdout {}

	elasticsearch {			%输出到es
		hosts => ["172.25.36.7:9200"]
		index => "eslog-%{+yyyy.MM.dd}"
	}
}

执行test.conf文件

logstash收集mysql原理 logstash文件采集_elk_53

查看logstash上的标准输出，显示输入了很多数据

logstash收集mysql原理 logstash文件采集_elk_54

在es中查看eslog索引，搜索at org，可以看到他们分成了一条一条的单独的数据

logstash收集mysql原理 logstash文件采集_大数据_55

现在删除该索引

logstash收集mysql原理 logstash文件采集_logstash收集mysql原理_56

并删除相关的sincedb

logstash收集mysql原理 logstash文件采集_数据_57

logstash收集mysql原理 logstash文件采集_logstash收集mysql原理_58

修改test.conf文件，再次执行test.conf文件

logstash收集mysql原理 logstash文件采集_大数据_59

可以看到错误日志是一条数据

logstash收集mysql原理 logstash文件采集_数据_60

在es中查看，同样是一条数据

logstash收集mysql原理 logstash文件采集_大数据_61

logstash收集mysql原理 logstash文件采集_logstash收集mysql原理_62

三、grok切片过滤插件

我们平时查看日志，比如查看apache的日志，可以发现很有规律，如下图，先是访问的ip，时间等等，那么能不能只看其中一组数据，比如只想要ip这一列。现在就需要logstash的切片这个功能了。我们可以根据日志的特征自定义grok的书写，得到想要的切片

logstash收集mysql原理 logstash文件采集_大数据_63

1.命令行输入，过滤，命令行输出

编辑grok.conf文件

[root@server6 conf.d] cat grok.conf 
input {
	stdin {}
}

filter {
	grok {						%把输入切片成五块，分别对应
	match => { "message" => "%{IP:client} %{WORD:method} %{URIPATHPARAM:request} %{NUMBER:bytes} %{NUMBER:duration}" }
	}
}

output {
	stdout {}
}

执行grok.conf文件

logstash收集mysql原理 logstash文件采集_logstash收集mysql原理_64

输入一串数据，根据设定的切片方法，一一对应

logstash收集mysql原理 logstash文件采集_数据_65

2.apache日志输入，切片，es输出

server10安装apache

logstash收集mysql原理 logstash文件采集_大数据_66

真机测试访问172.25.36.10

logstash收集mysql原理 logstash文件采集_elasticsearch_67

开启apache，写入默认发布目录

logstash收集mysql原理 logstash文件采集_大数据_68

真机测试访问

logstash收集mysql原理 logstash文件采集_elasticsearch_69

server10查看apache的日志

logstash收集mysql原理 logstash文件采集_logstash收集mysql原理_70

在/usr/share/logstash/vendor/bundle/jruby/2.5.0/gems/logstash-patterns-core-4.1.2/patterns目录下，有很多软件的日志的输出形式

logstash收集mysql原理 logstash文件采集_数据_71

看httpd的规定，如何写日志已经提前用变量的方法定义了，所以我们只需要按照这个规定切片就好了

logstash收集mysql原理 logstash文件采集_elk_72

把apache的日志作为grok的输入，日志文件需要给读的权限，日志文件的目录需要给读和执行的权限，读的时候是logstash的身份

logstash收集mysql原理 logstash文件采集_数据_73

修改grok.conf文件

[root@server10 conf.d]# cat grok.conf 
input {
	file {
		path => "/var/log/httpd/access_log"	%/var/log/httpd/access_log文件作为输入
		start_position => "beginning"		%从头开始
	}

}

filter {
	grok {
	match => { "message" => "%{HTTPD_COMBINEDLOG}" }	%按照默认的HTTPD_COMBINEDLOG方式切片
	}
}

output {
	stdout {}

	elasticsearch {
		hosts => ["172.25.36.7:9200"]
		index => "apachelog-%{+yyyy.MM.dd}"		%索引名字叫apachelog
	}
	
}

执行grok.conf文件

logstash收集mysql原理 logstash文件采集_数据_74

可以看到，按照默认定义好的模式将message进行切片

logstash收集mysql原理 logstash文件采集_大数据_75

es查看，成功切片

logstash收集mysql原理 logstash文件采集_logstash收集mysql原理_76

logstash收集mysql原理 logstash文件采集_elk_77

真机进行压力测试，加大数据量

logstash收集mysql原理 logstash文件采集_logstash收集mysql原理_78

数据浏览

logstash收集mysql原理 logstash文件采集_elasticsearch_79

成功切片

logstash收集mysql原理 logstash文件采集_elk_80

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

上一篇：代谢组学通路注释分析R语言代谢组学分析流程图

下一篇：android demo 日常计划基于android的日程管理系统

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯