flink mapstate 过期策略 flink mapstate例子

转载

mob6454cc7ccdfc 2024-04-09 10:41:19

文章标签 flink mapstate 过期策略 flink 官网 HDFS 文章分类 架构后端开发

文章目录

1.介绍

1.1 简介
1.2 案例

2.带状态的编程

2.1 官网解释
2.2 为什么要引入状态？ State => checkpoint

3.状态的分类

3.1 官网解释
3.2 两种基本类型的State

1.介绍

1.1 简介

Stateful Computations over Data Streams，Flink是一种有状态的流式处理引擎！！！
spark中upDateStateByKey/MapWithStateByKey（才会有状态），也可以结合redis/Mysql进行有状态的计算，
比如WC的多个批次的结果有关系。如果没有状态，批次之间都是单独计算的。

1.2 案例

例如： WC类似的操作必然式带状态的(保有了中间的临时数据）

val text: DataStream[String] = env.socketTextStream(“ruozedata001”, 9527)
 text.flatMap(.toLowerCase.split(","))
 .filter(.nonEmpty)
 .map(x => WC(x, 1))
 .keyBy(_.word)
 .sum(“count”)

2.带状态的编程

2.1 官网解释

https://ci.apache.org/projects/flink/flink-docs-release-1.12/concepts/stateful-stream-processing.html

一个状态是针对一个任务而言的。
用白话文讲：状态是一个变量，可以被任务的业务逻辑访问。
State一般是具体的task/operation(算子，transformation)，State的状态默认是保存在java的堆内存中。
CheckPoint：把State数据持久化存储（存内存，本地磁盘，HDFS，rocksDB+HDFS，存Mysql,存Redis都可以）

下图展示了flink程序对状态的操作：

flink mapstate 过期策略 flink mapstate例子_flink

flink mapstate 过期策略 flink mapstate例子_flink_02

上图展示了flink程序中对状态的处理与操作，生成状态即实现checkPoint的snapshotState方法 ,恢复状态即实现checkPoint的initializeState方法

2.2 为什么要引入状态？ State => checkpoint

spark中做kafka的offset管理，就是做精准一次
如果在job挂掉之前消费数据重复
如果在job挂掉之后消费数据丢失

State的状态默认存内容，做了chekcpoint后状态存到(内存，本地磁盘，HDFS，rocksDB+HDFS),程序挂掉后重新读。

3.状态的分类

3.1 官网解释

Working with State
https://ci.apache.org/projects/flink/flink-docs-release-1.12/dev/stream/state/state.html

3.2 两种基本类型的State

(1) KeyedState : 根据输入数据流中定义的key来维护和访问的,具体包括四种
ValueState: 单值
ListState: 一组数据的列表
ReduceingState/AggregatingState: 聚合状态
MapState: 一组K-V对
(2)OperatorState(non-keyed state) : kafka的consumer就是用这个State(State中保存消费这消费kafka的topic+partition+offset),底层就是实现 CheckpointedFunction的两个方法

//内存的数据持久化(保存数据，快照state)
     void snapshotState(FunctionSnapshotContext context) throws Exception;
    //初始化状态(读取数据)
     void initializeState(FunctionInitializationContext context) throws Exception;

PS：
Raw State:用户自行管理状态的数据结构，以bytes[]字节数组（了解）
Managed State:Flink框架管理的状态（工作中用的最多的），上面两种都属于ManagedState

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。