flink source sink 数据清洗 flink rocksdb状态清理

转载

岁月如歌甚好 2024-03-25 16:56:18

文章标签 数据检查点 kafka 文章分类 架构后端开发

内存级状态后端单独的Memory

键控状态作为内存中的对象保存在TaskManager的JVM堆上上。

chickpoint 检查点 JobManager的内存

1.MM 2.FS 3.RSDB

一：每传入一条数据，有状态的算子任务都会读取状态

状态分类：1:MemoryStateBackend

键控状态存在TaskManager的jvm堆上

chickpoint存储在JobManager的内存中

2： FsStateBackend：将checkpoint存储在远程持久化文件系统（FileSystem）

3：RocksDBStateBackend:序列化后存入本地的RockDB中存储。

二：Flink容错机制：就是state不丢

一致性检查点 checkpoint 故障恢复在某一个时间点对任务做快照

save points

flink source sink 数据清洗 flink rocksdb状态清理_kafka

Source 5 为读取数据的偏移量

6,9分别为不同的slot内的结果存盘

完整的checkpoint必须是所有任务都已经处理完的数据

exectly once 状态一致性。

检查点算法：

基于Chandy-Lamport算法的分布式快照

将检查点的保存和数据处理分离开，不暂停整个应用。

检查点分界线Checkpoint Barrier

Barrier传递规则：算法

watermark要等到所有的分区的watermark都达到摸个时间，找最小智，才推进到该状态

Barrier收集所有上游数据Barrier。

env.getCheckpointConfig.setCheckpointingMode(CheckpointingMode.AT_LEAST_ONCE)  //调低jibie
	 env.getCheckpointConfig.setCheckpointTimeout(60000) //超时时间
	env.getCheckpointConfig.setMaxConcurrentCheckpoints(2) //允许同时并行的最大Checkpoint
	env.getCheckpointConfig.setMinPauseBetweenCheckpoints(1000) //两次保存时至少的时间间隔
	env.getCheckpointConfig.setPreferCheckpointForRecovery(false) //false下与手动保存哪个近用哪个

重启策略：
env.setRestartStrategy(RestartStrategies.fixedDelayRestart(3,10000L)) //重启3次每次间隔10s
env.setRestartStrategy(RestartStrategies.failureRateRestart(5,Time.of(5,TimeUnit.MINUTES),Time.of(10,TimeUnit.SECONDS)))
保存点 Savepoints
使用场景：停止应用后重新启动
四：状态一致性分类（Flink内部状态一致性）
·1.AT-MOST-ONCE 不做任何处理既不恢复丢失的状态，也不重播丢失的数据。最多处理一次。UDP
2.AT-LEAST-ONCE
3.EXACTLY-ONCE
一致性检查点（Checkpoints）
检查点来保证exectly-once语义
Flink使用轻量级快照来保证exectly-once
五：端到端（Flink必须可以保证偏移量可以重置 kafka）
六：端到端状态一致性 = source + flink + sink
内部保证-checkpiont
source端-可以重置数据的读取位置 kafka
sink端 1：幂等写入多次写入结果一样 hashmap
2：事务写入写入必须开启事务构建的事务对应着checkpoint
实现方式 a:-----》GenericWriteAheadSink预写日志 wal 先写入预写日志等chenkpoint后再一次提交wal
b:------》两阶段提交（Two-Phase-Commit,2PC）(预提交–提交)
对于每个checkpoint,sink任务会启动一个事务，并将接下来的所有接受的数据添加到事务里。预提交。当他收到checkpoint完成通知时，他才正式提交事务，实现结果的真正写入。
这种方式真正实现了exactly-once:

要完成两阶段提交 	必须外部系统支持事务 Mysql 		
 			TwoPhaseCommitSinkFunction接口
 	流程 开启事务 等待checkpoint通知 提交事务
 					![在这里插入图片描述]()
Flink+Kafka实现端到端状态一致性保证
	1.内部-利用checkpoint机制，把状态存盘。发生故障时恢复，保证内部的状态一致性
	2.source------kafka consumer 作为source ,可以将偏移量把偶才能起来。
	3.sink----------kafka producer 作为sink.采用两阶段提交，需要实现一个TwoPhaseCommitSinkFunction

flink source sink 数据清洗 flink rocksdb状态清理_检查点_02