文章目录
- 1.介绍
- 1.1 简介
- 1.2 案例
- 2.带状态的编程
- 2.1 官网解释
- 2.2 为什么要引入状态? State => checkpoint
- 3.状态的分类
- 3.1 官网解释
- 3.2 两种基本类型的State
1.介绍
1.1 简介
Stateful Computations over Data Streams,Flink是一种有状态的流式处理引擎!!!
spark中upDateStateByKey/MapWithStateByKey(才会有状态) ,也可以结合redis/Mysql进行有状态的计算,
比如WC的多个批次的结果有关系。如果没有状态,批次之间都是单独计算的。
1.2 案例
例如: WC类似的操作必然式带状态的(保有了中间的临时数据)
val text: DataStream[String] = env.socketTextStream(“ruozedata001”, 9527)
text.flatMap(.toLowerCase.split(","))
.filter(.nonEmpty)
.map(x => WC(x, 1))
.keyBy(_.word)
.sum(“count”)
2.带状态的编程
2.1 官网解释
https://ci.apache.org/projects/flink/flink-docs-release-1.12/concepts/stateful-stream-processing.html
一个状态是针对一个任务而言的。
用白话文讲: 状态是一个变量,可以被任务的业务逻辑访问。
State一般是具体的task/operation(算子,transformation),State的状态默认是保存在java的堆内存中。
CheckPoint:把State数据持久化存储(存内存,本地磁盘,HDFS,rocksDB+HDFS,存Mysql,存Redis都可以)
下图展示了flink程序对状态的操作:
上图展示了flink程序中对状态的处理与操作,生成状态即实现checkPoint的snapshotState方法 ,恢复状态即实现checkPoint的initializeState方法
2.2 为什么要引入状态? State => checkpoint
spark中做kafka的offset管理,就是做精准一次
如果在job挂掉之前消费 数据重复
如果在job挂掉之后消费 数据丢失
State的状态默认存内容,做了chekcpoint后状态存到(内存,本地磁盘,HDFS,rocksDB+HDFS),程序挂掉后重新读。
3.状态的分类
3.1 官网解释
Working with State
https://ci.apache.org/projects/flink/flink-docs-release-1.12/dev/stream/state/state.html
3.2 两种基本类型的State
(1) KeyedState : 根据输入数据流中定义的key来维护和访问的,具体包括四种
ValueState: 单值
ListState: 一组数据的列表
ReduceingState/AggregatingState: 聚合状态
MapState: 一组K-V对
(2)OperatorState(non-keyed state) : kafka的consumer就是用这个State(State中保存消费这消费kafka的topic+partition+offset),底层就是实现 CheckpointedFunction的两个方法
//内存的数据持久化(保存数据,快照state)
void snapshotState(FunctionSnapshotContext context) throws Exception;
//初始化状态(读取数据)
void initializeState(FunctionInitializationContext context) throws Exception;
PS:
Raw State:用户自行管理状态的数据结构,以bytes[]字节数组(了解)
Managed State:Flink框架管理的状态(工作中用的最多的),上面两种都属于ManagedState