文章目录
- 1. Flume 定义
- 2. Flume 组成架构
- 2.1 Agent
- 2.2 Source
- 2.3 Channel
- 2.4 Sink
- 2.5 Event
- 3. Flume 拓扑结构
1. Flume 定义
Flume 是 Cloudera 提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输系统。Flume 基于流式架构、灵活简单。
2. Flume 组成架构
Flume 组成架构,如图 1-1、1-2 所示:
图 1-1 Flume 组成架构
Flume组成架构详解,如图所示:
图 1-2 Flume组成架构详解
下面我们来详细介绍一下Flume架构中的组件:
2.1 Agent
Agent 是一个 JVM 进程,它以事件的形式将数据从源头送至目的,是 Flume 数据传输的基本单元。
Agent 主要有3个部分组成,Source、Channel、Sink。
2.2 Source
Source 是负责接收数据到 Flume Agent 的组件。Source 组件可以处理各种类型、各种格式的日志数据,包括avro、thrift、exec、jms、spooling directory、netcat、sequence generator、syslog、http、legacy。
(1)Taildir Source相比Exec Source、Spooling Directory Source的优势
TailDir Source:断点续传、多目录。Flume1.6以前需要自己自定义Source记录每次读取文件位置,实现断点续传。
Exec Source可以实时搜集数据,但是在Flume不运行或者Shell命令出错的情况下,数据将会丢失。
Spooling Directory Source监控目录,不支持断点续传。
(2)batchSize大小如何设置?
答:Event 1K左右时,500-1000合适(默认为100)
Flume 中有三种可监控文件或目录的 source、分别是 :Exec Source、Spooling Directory Source、Taildir Source。
- Exec Source 通过tail -f命令去tail 住一个文件,然后实时同步日志到 sink。但存在的问题是,当 agent 进程挂掉重启后,会有重复消费的问题。可以通过增加UUID来解决,或通过改进 ExecSource 来解决。
- Spooling Directory Source 可监听一个目录,同步目录中的新文件到sink,被同步完的文件可被立即删除或被打上标记。适合用于同步新文件,但不适合对实时追加日志的文件进行监听并同步。如果需要实时监听追加内容的文件,可对SpoolDirectorySource进行改进。
- Taildir Source 可实时监控一批文件,并记录每个文件最新消费位置,agent进程重启后不会有重复消费的问题。 使用时建议用1.8.0版本的flume,1.8.0版本中解决了Taildir Source一个可能会丢数据的bug。
2.3 Channel
Channel 是位于 Source 和 Sink 之间的缓冲区。因此,Channel 允许 Source 和 Sink 运作在不同的速率上。Channel 是线程安全的,可以同时处理几个 Source 的写入操作和几个 Sink 的读取操作。
Flume 自带两种 Channel:Memory Channel 和 File Channel。
Memory Channel 是内存中的队列。Memory Channel在不需要关心数据丢失的情景下适用。如果需要关心数据丢失,那么Memory Channel就不应该使用,因为程序死亡、机器宕机或者重启都会导致数据丢失。
File Channel 将所有事件写到磁盘。因此在程序关闭或机器宕机的情况下不会丢失数据。
2.4 Sink
Sink 不断地轮询 Channel 中的事件且批量地移除它们,并将这些事件批量写入到存储或索引系统、或者被发送到另一个 Flume Agent。
Sink 是完全事务性的。在从 Channel 批量删除数据之前,每个 Sink 用 Channel 启动一个事务。批量事件一旦成功写出到存储系统或下一个 Flume Agent,Sink 就利用 Channel 提交事务。事务一旦被提交,该 Channel 从自己的内部缓冲区删除事件。
Sink 组件目的地包括 hdfs、logger、avro、thrift、ipc、file、null、HBase、solr、自定义。
2.5 Event
传输单元,Flume数据传输的基本单元,以事件的形式将数据从源头送至目的地。
3. Flume 拓扑结构
Flume的拓扑结构如图1-3、1-4、1-5和1-6所示:
图 1-3 Flume Agent连接
![在这里插入图片描述]()
图 1-4 单 source,多 channel、sink
![在这里插入图片描述]()
图 1-5 Flume 负载均衡
![在这里插入图片描述]()
图 1-6 Flume Agent 聚合
## 4. Flume Agent 内部原理
Flume Agent 内部原理图解