flume 上传到hbase flume数据传输的基本单元

关注码海无压

flume 上传到hbase flume数据传输的基本单元

转载

码海无压 2023-07-17 19:10:46

文章标签 flume 上传到hbase 数据自定义 hdfs 文章分类 Hbase 数据库

1、flume是分布式的日志收集系统，把手机来的数据传送到目的地去

2、flume传输的数据的基本单位是 event，如果是文本文件，通常是一行记录。

event代表着一个数据流的最小完整单元，由零个或多个header和正文组成，header类似于http头，包含时间的时间戳或者来源服务器主机名等。

3、flume里面有个核心概念，叫做agent,agent是一个java进程，运行在日志收集节点。

4、agent里面包含3个核心组件:source、channel、sink.

flume 上传到hbase flume数据传输的基本单元_hdfs

说明：

source组件是专用于收集日志的，可以处理各种格式的日志数据，包括avro、thrift、exec、jms、spooling、directory、netcat、 sequence、 generator、syslog、http、legacy、自定义。source组件把数据收集来以后，临时存放在channel中。
channel组件是在agent中专用于临时存储数据的，可以存放在memory、jdbc、file、自定义。channel中的数据只有在sink发送成功之后才会被删除。
sink组件是用于把数据发送到目的地的组件，目的地包括hdfs、logger、avro、thrift、ipc、file、null、solr、自定义

5、在整个数据传输过程中，流动的是event。事务保证是event级别。

6、flume可以支持多级flume的agent，支持扇入（fan-in）、扇出(fan-out)

注意：

1、一个source写event到一个或者多个channels中。

2、一个channel是event从source传输到sink的等候区；

3、一个sink只可以从一个channel中接收events;

4、一个agent可以有多个source、channel和sink

7、组件类型说明

source:

flume 上传到hbase flume数据传输的基本单元_数据_02

flume 上传到hbase flume数据传输的基本单元_hdfs_03

channel:

flume 上传到hbase flume数据传输的基本单元_数据_04

flume 上传到hbase flume数据传输的基本单元_hdfs_05

sink:

flume 上传到hbase flume数据传输的基本单元_数据_06

8、参数配置详解

Server：

(1) SpoolDirectoryTailFileSource:默认是按行读取，可以保证数据的完整性，即使flume重启或者被杀掉。

(2) trackerDir:存储处理文件相关的元数据的目录，如果不是绝对路径，那么将是spoolDir的相对路径。

(3) consumeOrder:转换文件的顺序 oldest|youngest|random

(4)batchSize:批量传输到Channel的粒度

(5)inputCharset：反序列化实验的字符集

(6) decodeErrorPolicy：如果解析失败的字符时应该如何处理，默认是FAIL，还可以选择IGNORE和REPLACE，FAIL时会抛出Exception,flume整个进程会阻塞在这，IGNORE会忽略此字符，REPLACE会用另一个字符替代。

(7)deserializer:这种反序列化器会将输入的文件的每行生成一个event

(8)deserializer.maxLineLength:默认是2048，大于这个字符数的行将被截断

(9)avro type:支持Avro协议（实际上是Avro RPC）,内置支持

(10)sinkgroups:通过sink组来选择当中优先级高的哪个作为被激活的sink.没有负载平衡处理，只是做到容灾。其中包括了两个sink,两个sink分别指向不同的flume-agent

(11)memory channel:如果虚拟机或机器重新启动，任何缓冲区中的数据将丢失。

(12)最好不要一个flume agent配置多个端口【影响性能】,配在一台机子上通过端口区分，一旦死机，全盘崩溃

Client:

(1)producer.max.request.size:每次producer请求的最大的字节数

(2)useLocalTimeStamp:是否使用本地时间戳

rollInterval:多久生成一个新文件，若为0，则一直为一个文件。

(4)rollSize:每个文件滚动大小

(5)rollCount:若为0表示文件的滚动与event数量无关

(6)idleTimeout:如果文件在hdfs.idleTimeout秒的时间里都是闲置的，没有任何数据写入，那么当前文件关闭，滚动到下一个文件

(7)transactionCapacity:事务容量，Channel每次提交的Event数量

Taildir与spooltailfiledirectory:taildir不能自动识别新文件；不支持文件名修改，容易重复上传；taildir不支持断点续传。

Flume采集流程：

往文件中写内容，触发flume agent server 的spoolTailFiledirectory,这样内容就会通过flume agent server到memory channel中，在

通过failover机制选择优先级高的sink去输出，最终输出的地方，由最后一环的flume配置中sink.type决定，可以是kafka,hdfs等等。

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

赞
收藏
评论
分享
举报

上一篇：解决方案架构师是什么解决方案系统架构

下一篇：ios路由 ios路由框架

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

举报文章

请选择举报类型

内容侵权涉嫌营销内容抄袭违法信息其他

具体原因

包含不真实信息涉及个人隐私

原文链接（必填）

补充说明

0/200

上传截图

格式支持JPEG/PNG/JPG，图片不超过1.9M

已经收到您得举报信息，我们会尽快审核

鸿蒙开发者社区

WOT技术大会

公众号矩阵

移动端

短视频免费课程课程排行直播课软考学堂

全部课程厂商认证 IT技术 24年11月软考 PMP项目管理免费题库

在线学习

文章资源问答课堂专栏直播

51CTO

鸿蒙开发者社区

51CTO技术栈

51CTO官微

51CTO学堂

51CTO博客

CTO训练营

鸿蒙开发者社区订阅号

51CTO软考

51CTO学堂APP

51CTO学堂企业版APP

鸿蒙开发者社区视频号

51CTO软考题库

51CTO博客

首页
关注
排行榜
精品课程
免费资料
软考题库

科目全、试题精、讲解专业，扫码免费刷

搜索历史清空

热门搜索

查看【】的结果
写文章
创作中心
登录注册