03_Flume入门_基础架构_自定义

agent: 是一个JVM的进程,采集数据的过程也是运行在JVM上的代码,在进程中包含三大组件(source,channel,sink)

source: 源头,对接Web Server,和外界数据进行对接的组件,用来读数据的地方,从外面读数据。需要在这里配置源头是来自哪里
channel:管道,通道;拦截器在这里,可以不加,更重要的是可以起到缓冲的作用,如果source和sink直连,会出现各种问题,source和sink的读取数据不一样,可能会有问题。
sink: 槽,和外界的HDFS或者卡夫卡进行对接,负责将数据写出去。需要配置写到哪里去?到HDFS还是卡夫卡。
需要配置这三个组件,根据这个组件去启动一个agent进程,就完成了flume的工作。这里也是支持自定义source和自定义sink。当前的不满足你的业务需求的时候。

flume基本不用处理数据,需要的话,也是轻量级的,比如:拦截器,过滤,给数据增加或者减少等轻量级的操作,不能做count(),sum()等操作

03_Flume入门_基础架构_数据_02


这是flume的图标,相当于运河,水上运输比较块,运载量也大。木头就是我们需要运载的数据。