Flume是一个分布式、可靠、和高可用的海量日志采集、汇聚和传输的系统。
Flume可以采集文件,socket数据包(网络端口)、文件夹、kafka等各种形式源数据,又可以将采集到的数据(下沉sink)输出到HDFS、hbase、hive、kafka等众多外部存储系统中
1. agent
flume的核心角色
flume采集系统就是由一个个agent连接起来所形成的一个或简单或复杂的数据传输通道.
每一个agent相当于一个数据(被封装成Event对象)传递员,内部有三个组件:
Source:采集组件,用于跟数据源对接,以获取数据;它有各种各样的内置实现;
Channel:传输通道组件,用于从source将数据传递到sink
Sink:下沉组件,用于往下一级agent传递数据或者向最终存储系统传递数据
单个agent采集数据:
单级source 多级sink:
多级agent之间串联:
2. Event:flume内部数据传输的封装形式
数据在Flum内部中数据以Event的封装形式存在。
Source组件在获取到原始数据后,需要封装成Event放入channel;
Sink组件从channel中取出Event后,需要根据配置要求,*转成其他形式的数据输出*。
Event封装对象主要有两部分组成: *Headers和 Body*
Header: 是一个集合 Map[String,String],用于携带一些KV形式的元数据(标志、描述等)
Boby: 就是一个字节数组,*装载具体的数据内容* 字节的形式存储在数组中
*Event: { headers:{} body: 61 20 61 20 61 61 61 20 61 20 0D a a aaa a . }*
3. Transaction:事务控制机制
Flume的事务机制(类似数据库的事务机制):
Flume使用两个独立的事务分别负责从Soucrce到Channel,以及从Channel到Sink的event传递。比如spooling directory source 为文件的每一个event batch创建一个事件,一旦事务中所有的事件全部传递到Channel且提交成功,那么Soucrce就将该文件标记为完成。
同理,事务以类似的方式处理从Channel到Sink的传递过程,如果因为某种原因使得事件无法记录,那么事务将会回滚。且所有的事件都会保持到Channel中,等待重新传递。
事务机制涉及到如下重要参数:
a1.sources.s1.batchSize =100
a1.sinks.k1.batchSize = 100
a1.channels.c1.transactionCapacity = 100(应该大于等于source或者sink的批次大小)
< transactionCapacity 是说,channel中保存的事务的个数>
跟channel的数据缓存空间容量区别开来:
a1.channels.c1.capacity = 10000
那么事务是如何保证数据的完整性的呢?看下面有两个agent的情况:
数据流程:
1.source 1产生Event,通过“put”、“commit”操作将Event放到Channel 1中
2.sink 1通过“take”操作从Channel 1中取出Event,并把它发送到Source 2中 3.source 2通过“put”、“commit”操作将Event放到Channel 2中
4.source 2向sink 1发送成功信号,sink 1“commit”步骤2中的“take”操作(其实就是删除Channel 1中的Event)
说明:在任何时刻,Event至少在一个Channel中是完整有效的
4. 拦截器
拦截器工作在source组件之后,source产生的event会被传入拦截器根据需要进行拦截处理
拦截器可以组成拦截器链
拦截器在flume中有一些内置的功能比较常用的拦截器
用户也可以根据自己的数据处理需求,自己开发自定义拦截器!
5. 选择器
让不同的项目日志通过不同的channel到不同的sink中去
Flume内置两种选择器:replicating和multiplexing。如果source的配置中没有指定选择器,那么会自动使用复制Channel选择器。
a1.sources = r1
a1.channels = c1 c2 c3
a1.sources.r1.selector.type = replicating
a1.sources.r1.channels = c1 c2 c3
a1.sources.r1.selector.optional = c3
a1.sources = r1
a1.channels = c1 c2 c3 c4
a1.sources.r1.selector.type = multiplexing
a1.sources.r1.selector.header = state
a1.sources.r1.selector.mapping.CZ = c1
a1.sources.r1.selector.mapping.US = c2 c3
a1.sources.r1.selector.optional.US = c4
a1.sources.r1.selector.default = c4