flume监控到本地目录hdfs flume监控多个目录

转载

mob64ca13ff28f1 2024-03-18 06:49:42

文章标签 flume监控到本地目录hdfs 大数据 flume hdfs hadoop 文章分类 运维

Flume 的应用3（taildir source、memory channel、hdfs sink）

文章目录

Flume 的应用3（taildir source、memory channel、hdfs sink）

2.4 实时监控多目录下的多个追加文件

Exec source 适用于监控一个实时追加的文件，不能实现断点续传；Spooldir Source 适合用于同步新文件，但不适合对实时追加日志的文件进行监听并同步；而 Taildir Source 适合用于监听多个实时追加的文件，并且能够实现断点续传。

1）案例需求：

使用 Flume 监听整个目录的实时追加文件，并上传至HDFS

2）需求分析：

flume监控到本地目录hdfs flume监控多个目录_flume监控到本地目录hdfs

3）实现步骤：

（1）创建配置文件 taildir-flume-hdfs.conf

创建一个文件

[xiaoxq@hadoop105 jobs]$ vim taildir-flume-hdfs.conf

添加如下内容

a3.sources = r3
a3.sinks = k3
a3.channels = c3

# Describe/configure the source
a3.sources.r3.type = TAILDIR
a3.sources.r3.positionFile = /opt/module/flume-1.9.0/tail_dir.json
a3.sources.r3.filegroups = f1 f2
a3.sources.r3.filegroups.f1 = /opt/module/flume-1.9.0/testfiles/file1/file1.txt
a3.sources.r3.filegroups.f2 = /opt/module/flume-1.9.0/testfiles/file2/file2.txt

# Describe the sink
a3.sinks.k3.type = hdfs
a3.sinks.k3.hdfs.path =/flume/upload2/%Y%m%d/%H
#上传文件的前缀
a3.sinks.k3.hdfs.filePrefix = upload-
#是否按照时间滚动文件夹
a3.sinks.k3.hdfs.round = true
#多少时间单位创建一个新的文件夹
a3.sinks.k3.hdfs.roundValue = 1
#重新定义时间单位
a3.sinks.k3.hdfs.roundUnit = hour
#是否使用本地时间戳
a3.sinks.k3.hdfs.useLocalTimeStamp = true
#积攒多少个Event才flush到HDFS一次
a3.sinks.k3.hdfs.batchSize = 100
#设置文件类型，可支持压缩
a3.sinks.k3.hdfs.fileType = DataStream
#多久生成一个新的文件
a3.sinks.k3.hdfs.rollInterval = 60
#设置每个文件的滚动大小大概是128M
a3.sinks.k3.hdfs.rollSize = 134217700
#文件的滚动与Event数量无关
a3.sinks.k3.hdfs.rollCount = 0

# Use a channel which buffers events in memory
a3.channels.c3.type = memory
a3.channels.c3.capacity = 1000
a3.channels.c3.transactionCapacity = 100

# Bind the source and sink to the channel
a3.sources.r3.channels = c3
a3.sinks.k3.channel = c3

flume监控到本地目录hdfs flume监控多个目录_hadoop_02

（2）启动监控文件夹命令

[xiaoxq@hadoop105 flume-1.9.0]$ bin/flume-ng agent -c conf/ -f jobs/taildir-flume-hdfs.conf -n a3

（3）向files文件夹中追加内容

在/opt/module/flume-1.9.0目录下创建testfiles/文件夹

[xiaoxq@hadoop105 flume-1.9.0]$ mkdir -p testfiles/file1
[xiaoxq@hadoop105 flume-1.9.0]$ mkdir -p testfiles/file2

向 upload 文件夹中添加文件

[xiaoxq@hadoop105 file1]$ pwd
/opt/module/flume-1.9.0/testfiles/file1
[xiaoxq@hadoop105 file1]$ echo hello >> file1.txt

[xiaoxq@hadoop105 file2]$ echo world >> file2.txt

（4）查看HDFS上的数据

flume监控到本地目录hdfs flume监控多个目录_大数据_03

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-

flume监控到本地目录hdfs flume监控多个目录_大数据_04

flume监控到本地目录hdfs flume监控多个目录_flume_05

flume监控到本地目录hdfs flume监控多个目录_hadoop_06

Taildir 说明：

Taildir Source 维护了一个 json 格式的 position File，其会定期的往 position File 中更新每个文件读取到的最新的位置，因此能够实现断点续传。Position File 的格式如下：

flume监控到本地目录hdfs flume监控多个目录_大数据_07

注：Linux 中储存文件元数据的区域就叫做 inode，每个 inode 都有一个号码，操作系统用 inode 号码来识别不同的文件，Unix/Linux 系统内部不使用文件名，而使用 inode 号码来识别文件。

小结：

taildir source
1.首先如果需要追踪多目录 需要配置filegroups 然后分别给对应的filegroups 赋值(文件的绝对路径)
2.taildir 如果想要完成断点续传：需要记录位置信息(inode pos path) 这三个改任何一个都能改变文件读取的位置

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

上一篇：springboot 读取 maven pom下properties所有属性 springboot读取指定properties文件

下一篇：kafka 动态平衡 kafka分区再平衡

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯