flume avro 级联 flume组件

转载

mob64ca1408d5ff 2024-03-26 09:48:05

文章标签 flume avro 级联 Source 数据拦截器 文章分类 架构后端开发

flume是一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统。支持在日志系统中定制各类数据发送方，用于收集数据;同时，Flume提供对数据进行简单处理，

　　并写到各种数据接受方(比如文本、HDFS、Hbase等)的能力。
　　flume的数据流由事件(Event)贯穿始终。事件是Flume的基本数据单位，它携带日志数据(字节数组形式)并且携带有头信息，这些Event由Agent外部的Source生成，当Source捕获事件后会进行特定的格式化，然后Source会把事件推入(单个或多个)Channel中。你可以把Channel看作是一个缓冲区，它将保存事件直到Sink处理完该事件。

　　Sink负责持久化日志或者把事件推向另一个Source。

日志由log4j或者slf4j生成。

二、Flume的一些核心概念

　　Client：Client生产数据，运行在一个独立的线程。

　　Event：一个数据单元，消息头和消息体组成。（Events可以是日志记录、 avro 对象等。）
　　Flow： Event从源点到达目的点的迁移的抽象。
　　Agent：一个独立的Flume进程，包含组件Source、 Channel、 Sink。（Agent使用JVM 运行Flume。每台机器运行一个agent，但是可以在一个agent中包含多个sources和sinks。）

　　Source：数据收集组件。（source从Client收集数据，传递给Channel）
　　Channel：中转Event的一个临时存储，保存由Source组件传递过来的Event。（Channel连接 sources 和 sinks ，这个有点像一个队列。）
　　Sink：从Channel中读取并移除Event，将Event传递到FlowPipeline中的下一个Agent（如果有的话）（Sink从Channel收集数据，运行在一个独立线程。）

Flume拦截器

　　当我们需要对数据进行过滤时，除了我们在Source、 Channel和Sink进行代码修改之外， Flume为我们提供了拦截器，拦截器也是chain形式的。

　　拦截器的位置在Source和Channel之间，当我们为Source指定拦截器后，我们在拦截器中会得到event，根据需求我们可以对event进行保留还是抛弃，抛弃的数据不会进入Channel中。

三、Flume核心组件

　　Flume主要由3个重要的组件构成：
　　1）Source：完成对日志数据的收集，分成transtion 和 event 打入到channel之中
　　　　 Flume提供了各种source的实现，包括Avro Source、 Exce Source、 Spooling
　　　　Directory Source、 NetCat Source、 Syslog Source、 Syslog TCP Source、
　　　　Syslog UDP Source、 HTTP Source、 HDFS Source， etc。
　　2）Channel： Flume Channel主要提供一个队列的功能，对source提供中的数据进行简单的缓存。
　　　　 Flume对于Channel，则提供了Memory Channel、 JDBC Chanel、 File Channel，etc

　　3）Sink： Flume Sink取出Channel中的数据，进行相应的存储文件系统，数据库，或者提交到远程服务器。
　　　　包括HDFS sink、 Logger sink、 Avro sink、 File Roll sink、 Null sink、 HBasesink， etc。

3.1、Source

　　Spool Source 如何使用？
　　在实际使用的过程中，可以结合log4j使用，使用log4j的时候，将log4j的文件分割机制设为1分钟一次，将文件拷贝到spool的监控目录。

　　 log4j有一个TimeRolling的插件，可以把log4j分割的文件到spool目录。基本实现了实时的监控。 Flume在传完文件之后，将会修改文

　　件的后缀，变为.COMPLETED（后缀也可以在配置文件中灵活指定）

　　Exec Source 和Spool Source 比较
　　1） ExecSource可以实现对日志的实时收集，但是存在Flume不运行或者指令执行出错时，将无法收集到日志数据，无法何证日志数据

　　　　的完整性。
　　2） SpoolSource虽然无法实现实时的收集数据，但是可以使用以分钟的方式分割文件，趋近于实时。
　　3）总结：如果应用无法实现以分钟切割日志文件的话，可以两种收集方式结合使用。

3.2、Channel

　　1）MemoryChannel可以实现高速的吞吐，但是无法保证数据完整性
　　2）MemoryRecoverChannel在官方文档的建议上已经建义使用FileChannel来替换。
　　　　FileChannel保证数据的完整性与一致性。在具体配置不现的FileChannel时，建议FileChannel设置的目录和程序日志文件保存的目录

　　　　设成不同的磁盘，以便提高效率。