flume 问题无法解析kafka地址 flume对接kafka

转载

mob6454cc77b8eb 2024-02-26 17:17:11

文章标签 flume 问题无法解析kafka地址 kafka flume 数据 hdfs 文章分类 架构后端开发

flume 问题无法解析kafka地址 flume对接kafka_kafka_02

一、Kafka对接Flume

既然我们学习了Kafka,那么我们肯定是要用Kafka的，在企业中最常用的流程处理方式如下👇

日志、埋点数据 👉 flume 👉 kafka 👉 flume(根据情景增删该流程) 👉 HDFS

虽然Kafka和Flume对接很简单，但是我们还是记录一下，以免哪天忘了就尴尬了你说是不是呀QAQ，如果小伙伴们对Flume的基本操作有些生疏的，可以去看一下我的另一篇博客 Flume入门解析（一），加强一下对Flume的印象！

好了，废话不多说，我们开始吧！

大致流程为：
监控本地文件  --->  flume  --->  kafka  --->  flume --->  HDFS

Kafka对接Flume时，有两种方式

方式1：常规方式：File Source -> Memory Channel-> Kafka Sink
方式2：其他方式：File Source -> Kafka Channel

方式1👇

第一步：配置Flume

该Flume配置是监控本地文件，传输到Kafka

vim exec2kafka.conf

# define
a1.sources = r1
a1.sinks = k1
a1.channels = c1

# source
a1.sources.r1.type = exec
a1.sources.r1.command = tail -F -c +0 /opt/datas/web.log
a1.sources.r1.shell = /bin/bash -c

# sink
a1.sinks.k1.type = org.apache.flume.sink.kafka.KafkaSink
a1.sinks.k1.kafka.bootstrap.servers = broker地址:9092...
a1.sinks.k1.kafka.topic = 主题名
a1.sinks.k1.kafka.flumeBatchSize = 20
a1.sinks.k1.kafka.producer.acks = 1
a1.sinks.k1.kafka.producer.linger.ms = 1

# channel
a1.channels.c1.type = memory
a1.channels.c1.capacity = 1000
a1.channels.c1.transactionCapacity = 100

# bind
a1.sources.r1.channels = c1
a1.sinks.k1.channel = c1

该Flume配置是消费Kafka中的数据，传输到HDFS

vim kafka2hdfs.conf

# define
a1.sources = r1
a1.sinks = k1
a1.channels = c1

# source
a1.sources.r1.type = org.apache.flume.source.kafka.KafkaSource
a1.sources.r1.channels = c1
a1.sources.r1.batchSize = 5000
a1.sources.r1.batchDurationMillis = 2000
a1.sources.r1.kafka.bootstrap.servers = broker地址:9092...
a1.sources.r1.kafka.topics = 主题名1、主题名2...
a1.sources.r1.kafka.consumer.group.id = 组id

# sink
a1.sinks.k1.type = hdfs
a1.sinks.k1.channel = c1
a1.sinks.k1.hdfs.path = /flume/events/%y-%m-%d/%H%M/%S
a1.sinks.k1.hdfs.filePrefix = events-
a1.sinks.k1.hdfs.round = true
a1.sinks.k1.hdfs.roundValue = 10
a1.sinks.k1.hdfs.roundUnit = minute

# channel
a1.channels.c1.type = memory
a1.channels.c1.capacity = 1000
a1.channels.c1.transactionCapacity = 100

# bind
a1.sources.r1.channels = c1
a1.sinks.k1.channel = c1

第二步：开启Flume

bin/flume-ng agent -c conf/ -n a1 -f conf/exec2kafka.conf

bin/flume-ng agent -c conf/ -n a1 -f conf/kafka2hdfs.conf

第三步：开启Kafka

bin/kafka-server-start.sh -daemon ./config/server.properties

第四步：向本地文件写入数据然后在HDFS查看数据

flume 问题无法解析kafka地址 flume对接kafka_flume 问题无法解析kafka地址_03

flume 问题无法解析kafka地址 flume对接kafka_kafka_04

可以看到数据已经传输到了HDFS上，大功告成！

方式2👇 （Kafka Channel中存储在Kafka的磁盘中，比内存更可靠）

第一步：配置Flume

该Flume配置是监控本地文件，传输到Kafka

vim exec2kafka.conf

# define
a1.sources = r1
a1.channels = c1

# source
a1.sources.r1.type = exec
a1.sources.r1.command = tail -F -c +0 /opt/datas/web.log
a1.sources.r1.shell = /bin/bash -c

# configure channel
a1.channels.c1.type = org.apache.flume.channel.kafka.KafkaChannel
a1.channels.c1.kafka.bootstrap.servers = broker地址:9092...
a1.channels.c1.kafka.topic = 主题名
a1.channels.c1.parseAsFlumeEvent = false
a1.channels.c1.kafka.consumer.group.id = 消费者组id

# bind
a1.sources.r1.channels = c1

该Flume配置是消费Kafka中的数据，传输到HDFS

vim kafka2hdfs.conf

# define
a1.sources = r1
a1.sinks = k1
a1.channels = c1

# source
a1.sources.r1.type = org.apache.flume.source.kafka.KafkaSource
a1.sources.r1.channels = c1
a1.sources.r1.batchSize = 5000
a1.sources.r1.batchDurationMillis = 2000
a1.sources.r1.kafka.bootstrap.servers = broker地址:9092...
a1.sources.r1.kafka.topics = 主题名1、主题名2...
a1.sources.r1.kafka.consumer.group.id = 消费者组id

# sink
a1.sinks.k1.type = hdfs
a1.sinks.k1.channel = c1
a1.sinks.k1.hdfs.path = /flume/events/%y-%m-%d/%H%M/%S
a1.sinks.k1.hdfs.filePrefix = events-
a1.sinks.k1.hdfs.round = true
a1.sinks.k1.hdfs.roundValue = 10
a1.sinks.k1.hdfs.roundUnit = minute

# channel
a1.channels.c1.type = memory
a1.channels.c1.capacity = 1000
a1.channels.c1.transactionCapacity = 100

# bind
a1.sources.r1.channels = c1
a1.sinks.k1.channel = c1

第二步：开启Flume

bin/flume-ng agent -c conf/ -n a1 -f conf/exec2kafka.conf

bin/flume-ng agent -c conf/ -n a1 -f conf/kafka2hdfs.conf

第三步：开启Kafka

bin/kafka-server-start.sh -daemon ./config/server.properties

第四步：向本地文件写入数据然后在HDFS查看数据

flume 问题无法解析kafka地址 flume对接kafka_flume 问题无法解析kafka地址_03

flume 问题无法解析kafka地址 flume对接kafka_kafka_04

可以看到数据已经传输到了HDFS上，大功告成！

二、Kafka自定义分区器

我们知道，Topic是有分区的，所以Producer在发送数据的数据，它是如何知道该把数据发送到哪里去呢？

我们可以在 doSend 方法中看到一个 partition的方法，根据这个方法得出了分区

flume 问题无法解析kafka地址 flume对接kafka_flume_07

我们看一看这个方法内部是如何实现的呢？如下图👇

flume 问题无法解析kafka地址 flume对接kafka_kafka_08

我们看到，第一步它从ProducerRecord 中获取分区，如果你还有影响，可以记得 ProducerRecord 的构造方法正好有一个可以传入分区，如下图👇

flume 问题无法解析kafka地址 flume对接kafka_flume_09

所以我们可以知道，在构建 ProducerRecord 对象的时候可以指定分区，这样就可以把数据发送到Topic的一个分区上，从而不会出现乱序的情况，但这不是我们的重点，我们再来看一下下面的代码我们在构建 ProducerRecord 的时候如果没有传入分区数，则下面的三元表达式肯定不成立，返回的是第二个参数，那第二个参数里面是怎样的呢？如下图👇

flume 问题无法解析kafka地址 flume对接kafka_flume 问题无法解析kafka地址_10