

  • 处理函数
  • 一、基本处理函数(ProcessFunction)
  • 1.RichFunction的功能与作用
  • 2. ProcessFunction的功能与作用
  • 3. 处理函数的分类
  • 二、按键分区处理函数(KeyedProcessFunction)
  • 1. 定时器(TimerService)
  • 2. KeyedProcessFunction的功能与示例
  • 三、窗口处理函数(ProcessWindowFunction、ProcessAllWindowFunction)
  • 1. ProcessWindowFunction的功能
  • 2. ProcessAllWindowFunction的功能
  • 四、其他处理函数
  • 1. CoProcessFunction:
  • 2. KeyedCoProcessFunction:
  • 3. ProcessJoinFunction:
  • 4. BroadcastProcessFunction:
  • 5. KeyedBroadcastProcessFunction:
  • 五、侧输出流(Side Output)
  • 六、Top N
  • 1. 使用 ProcessAllWindowFunction 实现 Top N
  • 2. 使用 KeyedProcessFunction 实现 Top N


Flink 1.13 多流转换


DataStream API 是 Flink 编程的核心。为了让代码有更强大的表现力和易用性,Flink 本身提供了多层 API,DataStream API 只是中间的一环。

flink print sink输出到哪里了 flink sinkfunction_sql

在更底层,我们可以不定义任何具体的算子(比如 map,filter,或者 window),而只是提炼出一个统一的“处理”(process)操作,它是所有转换算子的一个概括性的表达,可以自定义处理逻辑,叫作“处理函数”(process function)。





public abstract class AbstractRichFunction implements RichFunction, Serializable {
    // 运行时上下文
    private transient RuntimeContext runtimeContext;
    public void setRuntimeContext(RuntimeContext t) { this.runtimeContext = t;}
    public RuntimeContext getRuntimeContext() {}
    public IterationRuntimeContext getIterationRuntimeContext() {}
    // 生命周期方法
    public void open(Configuration parameters) throws Exception {}
    public void close() throws Exception {}

public interface RuntimeContext {

    /** returned ID should NOT be used for any job management tasks. */
    JobID getJobId();
    /** The name of the task in which the UDF runs. */
    String getTaskName();
    /** The metric group for this parallel subtask. */
    MetricGroup getMetricGroup();

    /** The parallelism with which the parallel task runs. */
    int getNumberOfParallelSubtasks();

    /** The max-parallelism with which the parallel task runs. */
    int getMaxNumberOfParallelSubtasks();

    /** The index of the parallel subtask. */
    int getIndexOfThisSubtask();

    /** Attempt number of the subtask.尝试次数 */
    int getAttemptNumber();

    /** The name of the task, with subtask indicator. */
    String getTaskNameWithSubtasks();

    ExecutionConfig getExecutionConfig();

    /** The ClassLoader for user code classes. */
    ClassLoader getUserCodeClassLoader();

    /** Registers a custom hook for the user code class loader release. */
    void registerUserCodeClassLoaderReleaseHookIfAbsent( String releaseHookName, Runnable releaseHook);


    // 状态
    <T> ValueState<T> getState(ValueStateDescriptor<T> stateProperties);

    <T> ListState<T> getListState(ListStateDescriptor<T> stateProperties);

    <T> ReducingState<T> getReducingState(ReducingStateDescriptor<T> stateProperties);

    <IN, ACC, OUT> AggregatingState<IN, OUT> getAggregatingState(
            AggregatingStateDescriptor<IN, ACC, OUT> stateProperties);

    <UK, UV> MapState<UK, UV> getMapState(MapStateDescriptor<UK, UV> stateProperties);

2. ProcessFunction的功能与作用


除此之外,其当前运行的上下文可以直接将数据输出到侧输出流(side output)中;另外提供了一个“定时服务”,访问流中的时间戳、水位线,甚至可以注册“定时事件”。

public abstract class ProcessFunction<I, O> extends AbstractRichFunction {

		public abstract void processElement(I value, Context ctx, Collector<O> out) throws Exception;

		public void onTimer(long timestamp, OnTimerContext ctx, Collector<O> out) throws Exception {}

    	//上下文可以直接将数据输出到侧输出流(side output)中;提供了一个“定时服务”
		public abstract class Context {
			/** TimeCharacteristic#ProcessingTime 是个null */
			public abstract Long timestamp();
			public abstract TimerService timerService();
			public abstract <X> void output(OutputTag<X> outputTag, X value);

		public abstract class OnTimerContext extends Context {
			/** The {@link TimeDomain} of the firing timer. */
			public abstract TimeDomain timeDomain();

public interface TimerService {

		long currentProcessingTime(); //processing time

		long currentWatermark(); //event-time watermark

		void registerProcessingTimeTimer(long time);

		void registerEventTimeTimer(long time);

		void deleteProcessingTimeTimer(long time);

		void deleteEventTimeTimer(long time);

3. 处理函数的分类

  1. ProcessFunction
    最基本的处理函数,基于 DataStream 直接调用.process()时作为参数传入。
  2. KeyedProcessFunction
    对流按键分区后的处理函数,基于 KeyedStream 调用.process()时作为参数传入。要想使用定时器,比如基于 KeyedStream。
  3. ProcessWindowFunction
    开窗之后的处理函数,也是全窗口函数的代表。基于 WindowedStream 调用.process()时作为参数传入。
  4. ProcessAllWindowFunction
    同样是开窗之后的处理函数,基于 AllWindowedStream 调用.process()时作为参数传入。
  5. CoProcessFunction
    合并(connect)两条流之后的处理函数,基于 ConnectedStreams 调用.process()时作为参数传入。关于流的连接合并操作,在多流转换里面介绍。
  6. ProcessJoinFunction
    间隔连接(interval join)两条流之后的处理函数,基于 IntervalJoined 调用.process()时作为参数传入。
  7. BroadcastProcessFunction
    广播连接流处理函数,基于 BroadcastConnectedStream 调用.process()时作为参数传入。这里的“广播连接流”BroadcastConnectedStream,是一个未 keyBy 的普通 DataStream 与一个广播流(BroadcastStream)做连接(conncet)之后的产物。关于广播流的相关操作,也在多流转换里面详细介绍。
  8. KeyedBroadcastProcessFunction
    按键分区的广播连接流处理函数,同样是基于 BroadcastConnectedStream 调用.process()时作为参数传入。与 BroadcastProcessFunction 不同的是,这时的广播连接流,是一个 KeyedStream 与广播流(BroadcastStream)做连接之后的产物。


1. 定时器(TimerService)

只有在 KeyedStream 中才支持使用 TimerService 设置定时器的操作。


对于处理时间和事件时间这两种类型的定时器,TimerService 内部会用一个优先队列将它们的时间戳保存起来,排队等待执行。可以认为,定时器其实是 KeyedStream 上处理算子的一个状态,它以时间戳作为区分。所以 TimerService 会以键(key)和时间戳为标准,对定时器进行去重;也就是说对于每个 key 和时间戳,最多只有一个定时器,如果注册了多次,onTimer()方法也将只被调用一次。

Flink 对.onTimer()和.processElement()方法是同步调用的(synchronous),所以也不会出现状态的并发修改。
Flink 的定时器同样具有容错性,它和状态一起都会被保存到一致性检查点中。当发生故障时,Flink 会重启并读取检查点中的状态,恢复定时器。如果是处理时间的定时器,有可能会出现已经“过期”的情况,这时它们会在重启时被立刻触发。

2. KeyedProcessFunction的功能与示例


stream.keyBy(data -> true) // 基于KeyedStream定义事件时间定时器 
   .process(new KeyedProcessFunction<Boolean, Event, String>() { 
      public void processElement(Event value, Context ctx, 
								Collector<String> out) throws Exception {
         out.collect("数据到达,时间戳为:" + ctx.timestamp()); 
         out.collect("数据到达,水位线为:" + ctx.timerService().currentWatermark()); 
         // 注册一个10秒后的定时器 
      public void onTimer(long timestamp, OnTimerContext ctx, 
								Collector<String> out) throws Exception {
        out.collect("定时器触发,触发时间:" + timestamp);


1. ProcessWindowFunction的功能


  • 因为全窗口函数不是逐个处理元素的,所以处理数据的方法在这里并不是.processElement(),而是改成了.process()。不再是一个输入数据,而是窗口中所有数据的集合。
  • 除了.process()方法外,没有了.onTimer()方法,而是多出了一个.clear()方法。如果我们自定义了窗口状态,那么必须在.clear()方法中进行显式地清除,避免内存溢出。
  • Context变化:
  • 由于当前不是只处理一个数据,所以Context也不再提供.timestamp()方法。
  • Context也不再持有TimerService对象,失去了设置定时器的功能,只能通过currentProcessingTime和currentWatermark来获取当前时间;没有了定时器,可以使用窗口触发器(Trigger)获取当前时间、注册和删除定时器,还可以获取当前的状态。具体操作见时间和窗口章节中。
  • Context增加了一些获取其他信息的方法:
  • 可以通过.window()直接获取当前的窗口对象,有getStart(),getEnd(),maxTimestamp();
  • 可以通过.windowState()和.globalState()获取到当前自定义的窗口状态和全局状态。


stream.keyBy( t -> t.f0 ) 
      .window( TumblingEventTimeWindows.of(Time.seconds(10)) ) 
      .process(new ProcessWindowFunction(){...}) 
public abstract class ProcessWindowFunction<IN, OUT, KEY, W extends Window>
        extends AbstractRichFunction {
    public abstract void process(KEY key, Context context, Iterable<IN> elements,
                                 Collector<OUT> out) throws Exception;
    public void clear(Context context) throws Exception {}

    /** The context holding window metadata. */
    public abstract class Context implements java.io.Serializable {

        public abstract W window();
        public abstract long currentProcessingTime();
        public abstract long currentWatermark();
        public abstract KeyedStateStore windowState();
        public abstract KeyedStateStore globalState();
        public abstract <X> void output(OutputTag<X> outputTag, X value);

2. ProcessAllWindowFunction的功能


      .process(new ProcessAllWindowFunction(){...})

public abstract class ProcessAllWindowFunction<IN, OUT, W extends Window>
        extends AbstractRichFunction {

    public abstract void process(Context context, Iterable<IN> elements,
								 Collector<OUT> out) throws Exception;

    public void clear(Context context) throws Exception {}

    public abstract class Context {

        public abstract W window();

        public abstract KeyedStateStore windowState();

        public abstract KeyedStateStore globalState();

        public abstract <X> void output(OutputTag<X> outputTag, X value);


1. CoProcessFunction:


2. KeyedCoProcessFunction:


3. ProcessJoinFunction:


public abstract class ProcessJoinFunction<IN1, IN2, OUT> extends AbstractRichFunction {
    public abstract void processElement(IN1 left, IN2 right, Context ctx, Collector<OUT> out) throws Exception;
    public abstract class Context {

        public abstract long getLeftTimestamp();

        public abstract long getRightTimestamp();

        /** @return The timestamp of the joined pair. */
        public abstract long getTimestamp();

        public abstract <X> void output(OutputTag<X> outputTag, X value);

4. BroadcastProcessFunction:


  • 多了processBroadcastElement方法,没有.onTimer()方法,
  • context里面多了 getBroadcastState() 方法。不再持有TimerService对象, 只能通过currentProcessingTime和currentWatermark来获取当前时间
  • ReadOnlyContext与context方法一样,但其调用时不能改。
public abstract class BroadcastProcessFunction<IN1, IN2, OUT> extends 
BaseBroadcastProcessFunction { 
	public abstract void processElement(IN1 value, ReadOnlyContext ctx,
							Collector<OUT> out) throws Exception; 
 	public abstract void processBroadcastElement(IN2 value, Context ctx, 
							Collector<OUT> out) throws Exception; 

5. KeyedBroadcastProcessFunction:


  • 多了onTimer方法
  • context里面多了applyToKeyedState()
  • ReadOnlyContext持有timerService()对象,多了getCurrentKey()
  • OnTimerContext继承于ReadOnlyContext,拥有timeDomain()方法。

五、侧输出流(Side Output)


OutputTag<String> outputTag = new OutputTag<String>("side-output") {};

SingleOutputStreamOperator<Long> longStream =	stream.process(
		new ProcessFunction<Integer, Long>() { 
      public void processElement(Integer value, Context ctx, 
									Collector<Integer> out) throws Exception { 
        	out.collect(Long.valueOf(value)); // 转换成Long,输出到主流中
        	// 转换成String,输出到侧输出流中 
        	ctx.output(outputTag, "side-output: " + String.valueOf(value));   

DataStream<String> stringStream = longStream.getSideOutput(outputTag);

六、Top N

1. 使用 ProcessAllWindowFunction 实现 Top N


stream.windowAll(SlidingEventTimeWindows.of(Time.seconds(10), Time.seconds(5)))
  .process(new ProcessAllWindowFunction<String, String, TimeWindow>(){ 
     public void process(Context context, Iterable<String> elements, 
									Collector<String> out) throws Exception { 
       HashMap<String, Long> urlCountMap = new HashMap<>(); 
       // 遍历窗口中数据,将浏览量保存到一个 HashMap 中 
       for (String url : elements){
         if(urlCountMap.containsKey(url)) {
            urlCountMap.put(url, urlCountMap.get(url) + 1L); 
         } else { 
            urlCountMap.put(url, 1L); 
	   ArrayList<Tuple2<String,Long>> mapList=new ArrayList<>();
       // 将浏览量数据放入ArrayList,进行排序                         
	   for (String key : urlCountMap.keySet()) { 
          mapList.add(Tuple2.of(key, urlCountMap.get(key))); 
       mapList.sort(new Comparator<Tuple2<String, Long>>() { 
           public int compare(Tuple2<String,Long> o1,Tuple2<String,Long> o2) { 
                return o2.f1.intValue() - o1.f1.intValue();
       // 取排序后的前两名,构建输出结果 
       StringBuilder result = new StringBuilder(); 
       for (int i = 0; i < 2; i++) { 
           Tuple2<String, Long> temp = mapList.get(i); 
           String info = "浏览量No." + (i + 1) + "url:" + temp.f0 + "浏览量:" + temp.f1 + "窗口结束时间:" + new Timestamp(context.window().getEnd())+"\n"; 

2. 使用 KeyedProcessFunction 实现 Top N

// 第一步:按key分组,在给定时间窗口内求每个key的个数
SingleOutputStreamOperator<Tuple3<String, Long, Long>> aggregate = sounce.keyBy(data -> data.f0)
      .aggregate(new AggregateFunction<Tuple2<String, Long>, Long, Long>() {
          public Long createAccumulator() { return 0L; }
          public Long add(Tuple2<String, Long> value, Long accumulator) {
              return accumulator + 1;
          public Long getResult(Long accumulator) { return accumulator; }
          public Long merge(Long a, Long b) { return a + b;}
			 new ProcessWindowFunction<Long, Tuple3<String, Long, Long>, 
											String, TimeWindow>() {
          public void process(String s, Context context, Iterable<Long> elements,
						   Collector<Tuple3<String, Long, Long>> out) throws Exception {
               Long num = elements.iterator().next();
               long end = context.window().getEnd();
               out.collect(Tuple3.of(s, end, num));

// 第一步:按窗口结束时间分组,在给定时间窗口内求 Top N
aggregate.keyBy(data -> data.f1)
  .process(new KeyedProcessFunction<Long, Tuple3<String, Long, Long>, String>{
		 private final int value = 2;
		 private ListState<Tuple3<String,Long,Long>> listState;
		 public void open(Configuration parameters) throws Exception {
      		listState = getRuntimeContext().getListState(new ListStateDescriptor<>
					("count", Types.TUPLE(Types.STRING, Types.LONG, Types.LONG)));
    	 public void processElement(Tuple3<String, Long,Long> value, Context ctx,
									Collector<String> out) throws Exception {
      		ctx.timerService().registerEventTimeTimer(ctx.getCurrentKey() + 1);
    	public void onTimer(long timestamp, OnTimerContext ctx, 
								Collector<String> out) throws Exception {
       		ArrayList<Tuple3<String, Long, Long>> tuple3s = new ArrayList<>();
       		for (Tuple3<String, Long, Long> element : listState.get()) {
       		tuple3s.sort(new Comparator<Tuple3<String, Long, Long>>() {
          		public int compare(Tuple3<String, Long, Long> o1, 
									  Tuple3<String, Long, Long> o2) {
              		return (int)(o2.f2 - o1.f2);
        	StringBuilder stringBuilder = new StringBuilder();
        	stringBuilder.append(new TimeStamp(ctx.getCurrentKey()) + "\n");
        	for(int i = 0; i < value; i++) {
           	Tuple3<String, Long, Long> stringLongLongTuple3 = tuple3s.get(i);
           	String info = "No."+(i+1)+"FirstName:"+stringLongLongTuple3.f0 + 
							"访问量:" + stringLongLongTuple3.f2 + "\n";