1,业务流程
2,日志采集
2.1采集模型
(1)用传统的flume聚合模型
采用这种模型服务器3的压力比较大,有可能会宕机.服务器1和服务器2是主动往服务器3进行数据的推送,而不是服务器3主动拉取.
(2)结合Kafka的聚合模型(Kafka source)
[1]解析
采用Kafka Channel,省去了Sink,提高了效率。KafkaChannel数据存储在Kafka里面,所以数据是存储在磁盘中。
注意在Flume1.7以前,Kafka Channel很少有人使用,因为发现parseAsFlumeEvent这个配置起不了作用。也就是无论parseAsFlumeEvent配置为true还是false,都会转为Flume Event。这样的话,造成的结果是,会始终都把Flume的headers中的信息混合着内容一起写入Kafka的消息中,这显然不是我所需要的,我只是需要把内容写入即可。
[2]实现
编写拦截器:因为日志服务器产生的日志有些可能不符合json的格式所以需要过滤掉
package com.atguigu.interceptor;
import com.alibaba.fastjson.JSON;
import org.apache.flume.Context;
import org.apache.flume.Event;
import org.apache.flume.interceptor.Interceptor;
import java.util.Iterator;
import java.util.List;
public class ETLInterceptor implements Interceptor {
/**
* 初始化方法
*/
@Override
public void initialize() {
}
/**
* 处理单条数据
* bath.size
* @param event
* @return
*/
@Override
public Event intercept(Event event) {
//取出数据
String json = new String(event.getBody());
try{
JSON.parseObject(json);
return event;
}catch (Exception e){
return null;
}
}
/**
* 批次数据处理
* 处理
* @param events
* @return
*/
@Override
public List<Event> intercept(List<Event> events) {
final Iterator<Event> it = events.iterator();
while (it.hasNext()){
//校验是否为json数据
Event event = intercept(it.next());
if(event==null) it.remove();
}
return events;
}
/**
* 资源关闭
*/
@Override
public void close() {
}
public static class Builder implements Interceptor.Builder{
/**
* 返回自定义拦截器对象
* @return
*/
@Override
public Interceptor build() {
return new ETLInterceptor();
}
/**
* 获取配置文件参数
* @param context
*/
@Override
public void configure(Context context) {
}
}
}
服务器1和服务器2Flume的配置编写
#定义agent、source、channel的名称
a1.sources = r1
a1.channels = c1
#描述source
a1.sources.r1.type = TAILDIR
a1.sources.r1.positionFile = /opt/module/flume/position.json
a1.sources.r1.filegroups = f1
a1.sources.r1.filegroups.f1 = /opt/module/applog/log/app.*
a1.sources.r1.batchSize = 100
#配置拦截器
a1.sources.r1.interceptors = i1
a1.sources.r1.interceptors.i1.type=com.atguigu.interceptor.ETLInterceptor$Builder
#描述channel
a1.channels.c1.type = org.apache.flume.channel.kafka.KafkaChannel
a1.channels.c1.kafka.bootstrap.servers = hadoop102:9092,hadoop103:9092
a1.channels.c1.kafka.topic = applog
#false代表不将event整个写入kafka只写入body中的数据
a1.channels.c1.parseAsFlumeEvent = false
#关联source->channel
a1.sources.r1.channels = c1
服务器3 Flume的配置
#设置agent、channel、sink的名称
a1.channels = c1
a1.sinks = k1
a1.sources = s1
#描述source
a1.sources.s1.type = org.apache.flume.source.kafka.KafkaSource
a1.sources.s1.kafka.bootstrap.servers = hadoop102:9092,hadoop103:9092
a1.sources.s1.kafka.consumer.group.id = applog_group_2
a1.sources.s1.kafka.topics = applog
a1.sources.s1.batchSize = 1000
a1.sources.s1.batchDurationMillis = 1000
#描述channel
a1.channels.c1.type = file
#数据存储路径
a1.channels.c1.dataDirs = /opt/module/flume/datas
#还没有被sink拉走的数据的快照存储路径
a1.channels.c1.checkpointDir = /opt/module/flume/checkpoint
#事务容量
a1.channels.c1.transactionCapacity = 1000
#快照多久保存一次
a1.channels.c1.checkpointInterval = 30000
#channel的容量
a1.channels.c1.capacity = 1000000
#描述sink
a1.sinks.k1.type = hdfs
a1.sinks.k1.hdfs.path = hdfs://hadoop102:8020/applog/%Y%m%d
#文件前缀
a1.sinks.k1.hdfs.filePrefix = applog1-
#多久滚动生成一个新文件
a1.sinks.k1.hdfs.rollInterval = 3600
#文件多大之后滚动生成一个新文件
a1.sinks.k1.hdfs.rollSize = 133169152
#文件写入多少个event后滚动生成一个新文件,设置为0代表不按照此规则滚动
a1.sinks.k1.hdfs.rollCount = 0
#设置sink每次从channel中拉取多少个event
a1.sinks.k1.hdfs.batchSize = 1000
#指定压缩格式
a1.sinks.k1.hdfs.codeC = lzop
#指定文件类型为压缩
a1.sinks.k1.hdfs.fileType = CompressedStream
#是否按照时间规则生成文件夹
a1.sinks.k1.hdfs.round = true
#多久生成一个文件夹
a1.sinks.k1.hdfs.roundValue = 24
#时间单位
a1.sinks.k1.hdfs.roundUnit = hour
#管理source->channel->sink
a1.sources.s1.channels = c1
a1.sinks.k1.channel = c1
注意:先启动服务器3的Flume,在启动服务器1和服务器2的Flume
(3)结合Kafka的聚合模型(Kafka channel)
[1]解析
使用Kafka channel 相当于Kafka的消费者,从Kafka中消费数据,写入Hdfs中
[2]实现
编写拦截器:因为日志服务器产生的日志有些可能不符合json的格式所以需要过滤掉
package com.atguigu.interceptor;
import com.alibaba.fastjson.JSON;
import org.apache.flume.Context;
import org.apache.flume.Event;
import org.apache.flume.interceptor.Interceptor;
import java.util.Iterator;
import java.util.List;
public class ETLInterceptor implements Interceptor {
/**
* 初始化方法
*/
@Override
public void initialize() {
}
/**
* 处理单条数据
* bath.size
* @param event
* @return
*/
@Override
public Event intercept(Event event) {
//取出数据
String json = new String(event.getBody());
try{
JSON.parseObject(json);
return event;
}catch (Exception e){
return null;
}
}
/**
* 批次数据处理
* 处理
* @param events
* @return
*/
@Override
public List<Event> intercept(List<Event> events) {
final Iterator<Event> it = events.iterator();
while (it.hasNext()){
//校验是否为json数据
Event event = intercept(it.next());
if(event==null) it.remove();
}
return events;
}
/**
* 资源关闭
*/
@Override
public void close() {
}
public static class Builder implements Interceptor.Builder{
/**
* 返回自定义拦截器对象
* @return
*/
@Override
public Interceptor build() {
return new ETLInterceptor();
}
/**
* 获取配置文件参数
* @param context
*/
@Override
public void configure(Context context) {
}
}
}
服务器1和服务器2 Flume的配置编写
#定义agent、source、channel的名称
a1.sources = r1
a1.channels = c1
#描述source
a1.sources.r1.type = TAILDIR
a1.sources.r1.positionFile = /opt/module/flume/position.json
a1.sources.r1.filegroups = f1
a1.sources.r1.filegroups.f1 = /opt/module/applog/log/app.*
a1.sources.r1.batchSize = 100
#配置拦截器
a1.sources.r1.interceptors = i1
a1.sources.r1.interceptors.i1.type=com.atguigu.interceptor.ETLInterceptor$Builder
#描述channel
a1.channels.c1.type = org.apache.flume.channel.kafka.KafkaChannel
a1.channels.c1.kafka.bootstrap.servers = hadoop102:9092,hadoop103:9092
a1.channels.c1.kafka.topic = applog
#false代表不将event整个写入kafka只写入body中的数据
a1.channels.c1.parseAsFlumeEvent = false
#关联source->channel
a1.sources.r1.channels = c1
服务器3 Flume的配置
#设置agent、channel、sink的名称
a1.channels = c1
a1.sinks = k1
#描述channel
# 设置channel type
a1.channels.c1.type = org.apache.flume.channel.kafka.KafkaChannel
# 设置从哪个kafka集群拉取数据
a1.channels.c1.kafka.bootstrap.servers = hadoop102:9092,hadoop103:9092
# 设置从哪个topic拉取数据
a1.channels.c1.kafka.topic = applog
# 设置消费者组的id
a1.channels.c1.kafka.consumer.group.id = app_group
# kafka中数据是否按照event结构进行解析
a1.channels.c1.parseAsFlumeEvent = false
# kafka中没有数据的时候,间隔多久去拉取
a1.channels.c1.pollTimeout = 5000
# 第一次从topic拉取数据的时候指定从什么位置开始拉取
a1.channels.c1.kafka.consumer.auto.offset.reset = earliest
#描述sink
a1.sinks.k1.type = hdfs
a1.sinks.k1.hdfs.path = hdfs://hadoop102:8020/applog/%Y%m%d
#文件前缀
a1.sinks.k1.hdfs.filePrefix = applog-
#多久滚动生成一个新文件
a1.sinks.k1.hdfs.rollInterval = 3600
#文件多大之后滚动生成一个新文件
a1.sinks.k1.hdfs.rollSize = 133169152
#文件写入多少个event后滚动生成一个新文件,设置为0代表不按照此规则滚动
a1.sinks.k1.hdfs.rollCount = 0
#设置sink每次从channel中拉取多少个event
a1.sinks.k1.hdfs.batchSize = 1000
#指定压缩格式
a1.sinks.k1.hdfs.codeC = lzop
#指定文件类型为压缩
a1.sinks.k1.hdfs.fileType = CompressedStream
#是否按照时间规则生成文件夹
a1.sinks.k1.hdfs.round = true
#多久生成一个文件夹
a1.sinks.k1.hdfs.roundValue = 24
#时间单位
a1.sinks.k1.hdfs.roundUnit = hour
#是否使用本地时间戳
a1.sinks.k1.hdfs.useLocalTimeStamp = true
#管理channel->sink
a1.sinks.k1.channel = c1
注意:先启动服务器3的Flume,在启动服务器1和服务器2的Flume
(4)自定义时间戳
由于Flume默认会用Linux系统时间,作为输出到HDFS路径的时间。如果数据是23:59分产生的。Flume消费Kafka里面的数据时,有可能已经是第二天了,那么这部门数据会被发往第二天的HDFS路径。我们希望的是根据日志里面的实际时间,发往HDFS的路径,所以下面拦截器作用是获取日志中的实际时间。
解决的思路:拦截json日志,通过fastjson框架解析json,获取实际时间ts。将获取的ts时间写入拦截器header头,header的key是timestamp,因为Flume框架会根据这个key的值识别为时间,写入到HDFS。
当然header的key值也可以自定义,在配置文件中引用的时候使用%{header中的key值}
[1]拦截器编写
package com.atguigu.interceptor;
import com.alibaba.fastjson.JSON;
import com.alibaba.fastjson.JSONObject;
import org.apache.flume.Context;
import org.apache.flume.Event;
import org.apache.flume.interceptor.Interceptor;
import java.text.SimpleDateFormat;
import java.util.Date;
import java.util.List;
public class TimeStampInterceptor implements Interceptor {
@Override
public void initialize() {
}
/**
* 对单个数据进行处理
* @param event
* @return
*/
@Override
public Event intercept(Event event) {
//1、解析json
String data = new String(event.getBody());
//2、取出时间字段
JSONObject obj = JSON.parseObject(data);
//3、将时间字段添加到header中
Long ts = obj.getLong("ts");
//4、event返回
//event.getHeaders().put("timestamp",""+ts);
SimpleDateFormat format = new SimpleDateFormat("yyyyMMdd");
String datestr = format.format(new Date(ts));
event.getHeaders().put("datestr",datestr);
return event;
}
@Override
public List<Event> intercept(List<Event> events) {
for(Event event:events){
intercept(event);
}
return events;
}
@Override
public void close() {
}
public static class Builder implements Interceptor.Builder {
@Override
public Interceptor build() {
return new TimeStampInterceptor();
}
@Override
public void configure(Context context) {
}
}
}
[2]服务器3 的Flume配置
#设置agent、channel、sink的名称
a1.channels = c1
a1.sinks = k1
a1.sources = s1
#描述source
a1.sources.s1.type = org.apache.flume.source.kafka.KafkaSource
a1.sources.s1.kafka.bootstrap.servers = hadoop102:9092,hadoop103:9092
a1.sources.s1.kafka.consumer.group.id = applog_group_2
a1.sources.s1.kafka.topics = applog
a1.sources.s1.batchSize = 1000
a1.sources.s1.batchDurationMillis = 1000
#拦截器
a1.sources.s1.interceptors = i1
a1.sources.s1.interceptors.i1.type = com.atguigu.interceptor.TimeStampInterceptor$Builder
#描述channel
a1.channels.c1.type = file
#数据存储路径
a1.channels.c1.dataDirs = /opt/module/flume/datas
#还没有被sink拉走的数据的快照存储路径
a1.channels.c1.checkpointDir = /opt/module/flume/checkpoint
#事务容量
a1.channels.c1.transactionCapacity = 1000
#快照多久保存一次
a1.channels.c1.checkpointInterval = 30000
#channel的容量
a1.channels.c1.capacity = 1000000
#描述sink
#描述sink
a1.sinks.k1.type = hdfs
#a1.sinks.k1.hdfs.path = hdfs://hadoop102:8020/applog/%Y%m%d
#直接获取header上格式好的日期字符串
a1.sinks.k1.hdfs.path = hdfs://hadoop102:8020/applog/%{datestr}
#文件前缀
a1.sinks.k1.hdfs.filePrefix = applog1-
#多久滚动生成一个新文件
a1.sinks.k1.hdfs.rollInterval = 3600
#文件多大之后滚动生成一个新文件
a1.sinks.k1.hdfs.rollSize = 133169152
#文件写入多少个event后滚动生成一个新文件,设置为0代表不按照此规则滚动
a1.sinks.k1.hdfs.rollCount = 0
#设置sink每次从channel中拉取多少个event
a1.sinks.k1.hdfs.batchSize = 1000
#指定压缩格式
a1.sinks.k1.hdfs.codeC = lzop
#指定文件类型为压缩
a1.sinks.k1.hdfs.fileType = CompressedStream
#是否按照时间规则生成文件夹
a1.sinks.k1.hdfs.round = true
#多久生成一个文件夹
a1.sinks.k1.hdfs.roundValue = 24
#时间单位
a1.sinks.k1.hdfs.roundUnit = hour
#管理source->channel->sink
a1.sources.s1.channels = c1
a1.sinks.k1.channel = c1