简介
之前所介绍的流处理 API ,无论是基本的转换、聚合,还是更为复杂的窗口操作,其实都
是基于 DataStream 进行转换的;所以可以统称为 DataStream API ,这也是 Flink 编程的核心。
而我们知道,为了让代码有更强大的表现力和易用性, Flink 本身提供了多层 API , DataStream
API 只是中间的一环
使用
processFunction
它不能注册定时器
public class FlinkApp {
public static void main(String[] args) throws Exception {
//得到执行环境
StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
DataStreamSource<String> socketTextStream = env.socketTextStream("master", 9999);
//并行度设置为1才能看到效果,因为如果不为1,那么有些分区的水位线就是负无穷
//由于自己的水位线是分区里面最小的水位线,那么自己的一直都是负无穷
//就触发不了水位线的上升
env.setParallelism(1);
//第一个参数就一个名字,第二个参数用来表示事件时间
SingleOutputStreamOperator<Tuple2<String, Long>> initData = socketTextStream.map(new MapFunction<String, Tuple2<String, Long>>() {
@Override
public Tuple2<String, Long> map(String value) throws Exception {
String[] s = value.split(" ");
//假设我们在控制台输入的参数是a 15s,那么我们要15*1000才能得到时间戳的毫秒时间
return Tuple2.of(s[0], Long.parseLong(s[1]) * 1000L);
}
});
//设置水位线
SingleOutputStreamOperator<Tuple2<String, Long>> watermarks = initData.assignTimestampsAndWatermarks(
// 针对乱序流插入水位线,延迟时间设置为 2s
WatermarkStrategy.<Tuple2<String, Long>>forBoundedOutOfOrderness(Duration.ofSeconds(2))
.withTimestampAssigner(new SerializableTimestampAssigner<Tuple2<String, Long>>() {
@Override
public long extractTimestamp(Tuple2<String, Long> element, long recordTimestamp) {
//指定事件时间
return element.f1;
}
})
);
//定义一个侧输出流的标识
OutputTag<Tuple2<String, Long>> outputTag = new OutputTag<Tuple2<String, Long>>("outputTag") {
};
//在普通的datastream的api搞不定的时候就可以使用它了
SingleOutputStreamOperator<Tuple2<String, Long>> res = watermarks.process(new ProcessFunction<Tuple2<String, Long>, Tuple2<String, Long>>() {
@Override
public void processElement(Tuple2<String, Long> value, Context ctx, Collector<Tuple2<String, Long>> out) throws Exception {
System.out.println("当前的水位线: " + ctx.timerService().currentWatermark());
if (value.f0.equals("a")) {
//如果为a那么就写入到侧输出流
ctx.output(outputTag, value);
} else {
out.collect(value);
}
}
});
res.print("result");
//得到侧输出流的数据
DataStream<Tuple2<String, Long>> sideOutput = res.getSideOutput(outputTag);
sideOutput.print("outputTag");
env.execute();
}
}
启动linux的nc
nc -lk 9999
a 1
b 1
控制台输出
当前的水位线: -9223372036854775808
outputTag> (a,1000)
当前的水位线: -1001
result> (b,1000)
KeyedProcessFunction
要keyBy以后才能使用
定时器的使用
public class FlinkApp {
public static void main(String[] args) throws Exception {
//得到执行环境
StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
DataStreamSource<String> socketTextStream = env.socketTextStream("master", 9999);
//并行度设置为1才能看到效果,因为如果不为1,那么有些分区的水位线就是负无穷
//由于自己的水位线是分区里面最小的水位线,那么自己的一直都是负无穷
//就触发不了水位线的上升
env.setParallelism(1);
//第一个参数就一个名字,第二个参数用来表示事件时间
SingleOutputStreamOperator<Tuple2<String, Long>> initData = socketTextStream.map(new MapFunction<String, Tuple2<String, Long>>() {
@Override
public Tuple2<String, Long> map(String value) throws Exception {
String[] s = value.split(" ");
//假设我们在控制台输入的参数是a 15s,那么我们要15*1000才能得到时间戳的毫秒时间
return Tuple2.of(s[0], Long.parseLong(s[1]) * 1000L);
}
});
//设置水位线
SingleOutputStreamOperator<Tuple2<String, Long>> watermarks = initData.assignTimestampsAndWatermarks(
// 针对乱序流插入水位线,延迟时间设置为 0s
WatermarkStrategy.<Tuple2<String, Long>>forBoundedOutOfOrderness(Duration.ofSeconds(0))
.withTimestampAssigner(new SerializableTimestampAssigner<Tuple2<String, Long>>() {
@Override
public long extractTimestamp(Tuple2<String, Long> element, long recordTimestamp) {
//指定事件时间
return element.f1;
}
})
);
//在普通的datastream的api搞不定的时候就可以使用它了
//KeyedProcessFunction只有在keyBy才能使用
watermarks.keyBy(data->data.f0)
.process(new KeyedProcessFunction<String, Tuple2<String, Long>,Tuple2<String, Long>>() {
@Override
public void processElement(Tuple2<String, Long> value, Context ctx, Collector<Tuple2<String, Long>> out) throws Exception {
Long start = ctx.timestamp();
//注册一个定时器
ctx.timerService().registerEventTimeTimer(start+2*1000L);
System.out.println("start: "+start+" end: "+(start+2*1000L));
out.collect(value);
System.out.println("事件时间: "+start+" 水位线为:"+ctx.timerService().currentWatermark());
}
@Override
public void onTimer(long timestamp, KeyedProcessFunction<String, Tuple2<String, Long>, Tuple2<String, Long>>.OnTimerContext ctx, Collector<Tuple2<String, Long>> out) throws Exception {
System.out.println("定时器启动了: "+timestamp+" 水位线为:"+ctx.timerService().currentWatermark());
}
}).print();
env.execute();
}
}
启动linux的nc
nc -lk 9999
输入
a 1
a 4
输出
start: 1000 end: 3000
(a,1000)
事件时间: 1000 水位线为:-9223372036854775808
start: 4000 end: 6000
(a,4000)
事件时间: 4000 水位线为:999
定时器启动了: 3000 水位线为:3999
结论
- 可以看到开始水位线为负无穷,注册的定时器和时间事件的关系是,水位线为本次事件时间的-1毫秒
- 程序结束的时候水位线为无穷大值,就是为了触发没有触发的程序