文章目录

  • 1.介绍
  • 1.1 简介
  • 1.2 案例
  • 2.带状态的编程
  • 2.1 官网解释
  • 2.2 为什么要引入状态? State => checkpoint
  • 3.状态的分类
  • 3.1 官网解释
  • 3.2 两种基本类型的State


1.介绍

1.1 简介

Stateful Computations over Data Streams,Flink是一种有状态的流式处理引擎!!!
spark中upDateStateByKey/MapWithStateByKey(才会有状态) ,也可以结合redis/Mysql进行有状态的计算,
比如WC的多个批次的结果有关系。如果没有状态,批次之间都是单独计算的。

1.2 案例

例如: WC类似的操作必然式带状态的(保有了中间的临时数据)

val text: DataStream[String] = env.socketTextStream(“ruozedata001”, 9527)
 text.flatMap(.toLowerCase.split(","))
 .filter(.nonEmpty)
 .map(x => WC(x, 1))
 .keyBy(_.word)
 .sum(“count”)

2.带状态的编程

2.1 官网解释

https://ci.apache.org/projects/flink/flink-docs-release-1.12/concepts/stateful-stream-processing.html

一个状态是针对一个任务而言的。
用白话文讲: 状态是一个变量,可以被任务的业务逻辑访问。
State一般是具体的task/operation(算子,transformation),State的状态默认是保存在java的堆内存中。
CheckPoint:把State数据持久化存储(存内存,本地磁盘,HDFS,rocksDB+HDFS,存Mysql,存Redis都可以)

下图展示了flink程序对状态的操作:

flink mapstate 过期策略 flink mapstate例子_flink


flink mapstate 过期策略 flink mapstate例子_flink_02


上图展示了flink程序中对状态的处理与操作,生成状态即实现checkPoint的snapshotState方法 ,恢复状态即实现checkPoint的initializeState方法

2.2 为什么要引入状态? State => checkpoint

spark中做kafka的offset管理,就是做精准一次
如果在job挂掉之前消费 数据重复
如果在job挂掉之后消费 数据丢失

State的状态默认存内容,做了chekcpoint后状态存到(内存,本地磁盘,HDFS,rocksDB+HDFS),程序挂掉后重新读。

3.状态的分类

3.1 官网解释

Working with State
https://ci.apache.org/projects/flink/flink-docs-release-1.12/dev/stream/state/state.html

3.2 两种基本类型的State

(1) KeyedState : 根据输入数据流中定义的key来维护和访问的,具体包括四种
ValueState: 单值
ListState: 一组数据的列表
ReduceingState/AggregatingState: 聚合状态
MapState: 一组K-V对
(2)OperatorState(non-keyed state) : kafka的consumer就是用这个State(State中保存消费这消费kafka的topic+partition+offset),底层就是实现 CheckpointedFunction的两个方法

//内存的数据持久化(保存数据,快照state)
     void snapshotState(FunctionSnapshotContext context) throws Exception;
    //初始化状态(读取数据)
     void initializeState(FunctionInitializationContext context) throws Exception;

PS:
Raw State:用户自行管理状态的数据结构,以bytes[]字节数组(了解)
Managed State:Flink框架管理的状态(工作中用的最多的),上面两种都属于ManagedState