Flink在流处理过程中支持不同的时间概念

1.事件时间(EventTime):事件在生产设备上发生的事件,是事件自身的属性。

2.提取时间(IngestionTime):事件到达Flink source的时间、。

3.处理时间(ProcessingTime):flink算子处理事件的系统时间,不需要流和机器间的协调,具有最佳性能和最低延迟

官方介绍图

Flink 指定时间戳 flink事件时间_Flink入门


什么是水位线(Watermark)

官方解释:Flink中用于衡量事件时间进度的机制是Watermark。Watermark本质上是一个时间戳

作用:允许延迟的数据正常计算事件源分别在13秒,13秒,16秒产生了三个a事件

Flink 指定时间戳 flink事件时间_自定义_02


如果时间窗口大小为10秒,窗口间隔为5秒,则时间窗口[5S-15S]应该包含两条a事件(a,2),时间窗口[10S-20S]包含3条a事件(a,3),时间窗口[15S-25S]包含1条a事件(a,1)。

Flink 指定时间戳 flink事件时间_Flink 指定时间戳_03

如果13秒有一条产生的事件因为网络阻塞或其他问题而导致延迟6秒到达,即19秒到达。如下图所示,对于窗口2的计算没有影响,因为13秒和19秒都在窗口2的事件跨度内,但是事件的延迟导致窗口1和窗口3的计算结果不准确。

Flink 指定时间戳 flink事件时间_时间戳_04

要解决上述问题,可以考虑使用EventTime作为时间策略,需要设置EventTime并且自定义时间戳抽取方法,下面会详细说明,现在先假定已经将事件时间抽取为EventTime并实现了时间戳抽取功能。则窗口计算的时候,由于13秒的a事件即使延迟6秒到达因为其EventTime不会改变还是属于窗口2[10S-20S]范围内,因此窗口2结果是正确的。窗口3[15S-25S]因为延迟事件a的EventTime不属于其范围内,因此不会计算,窗口3的结果也是正确的,但是窗口1的计算结果仍然是错误的。

Flink 指定时间戳 flink事件时间_自定义_05

解决窗口1的问题,可以使用水位线或者Allowed Lateness。默认的watermark会取当前的时间戳,也就不能允许延迟到达的事件参与计算。我们可以手动的将窗口计算的事件延迟5S(自己定义),则窗口1将在20S时计算,那么19秒到达的事件a将参与到窗口1的计算(15S-20S到达的其他事件因为EventTime不属于时间窗口1将会被过滤),因此最终可以得到正确的结果。

Flink 指定时间戳 flink事件时间_时间戳_06

代码理解:

flink-1.9.0中流处理默认使用处理时间(ProcessingTime)。

Flink 指定时间戳 flink事件时间_时间戳_07

AssignerWithPeriodicWatermarks是实现自定义watermark需要实现的接口,注释说明在ExcutionConfig类的getAutoWatermarkInterval方法定义了获取当前watermark的时间间隔,我们继续向下走。

Flink 指定时间戳 flink事件时间_Flink入门_08


进入ExecutionConfig类中,自动调用getCurrentWatermark()变量值为0

Flink 指定时间戳 flink事件时间_时间戳_09


Flink 指定时间戳 flink事件时间_时间戳_10

上面接口中说明默认的watermark时间戳抽取间隔是0,即调用getCurrentWatermark()方法间隔为0。但是在StreamExecutionEnvironment类中我们可以看到如果是EventTime或者IngestingTime则这个时间间隔会被设置成为200ms。

Flink 指定时间戳 flink事件时间_时间戳_11


那么如果我们选用ProcessingTime,这个时间间隔将是0,是不是getCurrentWatermark()方法将被一直调用呢,其实不是这样。如果调用.assignTimestampsAndWatermarks()方法实现自定义watermark会调用到如下方法,这个方法会初始化一个TimestampsAndPeriodicWatermarksOperator类,这个类是Function的一个子类,有我们常见的open()以及close()方法。

Flink 指定时间戳 flink事件时间_Flink入门_12


Function类的open()方法是在程序初始化的时候执行的,我们可以看到这个方法首先获取获取watermarkInterval,并且只有在这个值大于0的时候才回去注册定时任务,如果这个值为0,自然不会注册定时任务,也就不会定时执行了。

Flink 指定时间戳 flink事件时间_自定义_13


TimestampsAndPeriodicWatermarksOperator类中的onProcessingTime(long timestamp)负责维护定时任务的信息,userFunction.getCurrentWatermark()调用的是自定义或默认的getCurrentWatermark()方法设定当前的watermark,如果当前获取的watermark为空或小于之前获取的wakermark值,那么就不生效,还是用原来大的值,最后再次注册定时任务。

Flink 指定时间戳 flink事件时间_Flink 指定时间戳_14

自定义watermark

1.需要调用assignTimestampsAndWatermarks()方法并传入实现AssignerWithPeriodicWatermarks< T>接口的类
2.实现时间戳抽取方法extractTimestamp(T element, long previousElementTimestamp)
获取当前水位线方法getCurrentWatermark()

例如,使用事件发生时间戳作为EventTime

Flink 指定时间戳 flink事件时间_时间戳_15


获取EventTime提取的值timestamp字段,取的是事件的发生时间,这是事件自身的属性。

Flink 指定时间戳 flink事件时间_定时任务_16


自定义watermark生成策略,最大延迟的时间为10S。

Flink 指定时间戳 flink事件时间_Flink入门_17

下图为提取时间(IngestionTime)的watermark生成和时间戳提取方法,取当前系统时间和上一次时间戳比较取最大值,生成的watermark延迟1ms。

Flink 指定时间戳 flink事件时间_Flink入门_18


刚入门的菜鸟,如果有理解错误的地方,希望能指出来大家一起学习!!!