Flink CDC 定时任务java代码 flink定时运行job

转载

mob64ca1418e88d 2023-12-11 12:49:02

前言

流式计算对稳定性敏感，所以我们在编写作业时一定会做好防御性编程，如各种判空、边界条件、安全的类型转换、格式判断、异常捕获等。但是墨菲定律说得好：

Anything that can go wrong will go wrong.

换言之，我们写再多的防御性代码，也无法覆盖所有非法数据的可能性，何况外部环境（网络、磁盘等）也会出现不可预知的波动，所以作业在遇到意外情况时最好能自己“复活”，而不是每次都要靠人工手动拉起来。针对这个问题，Flink提供了重启策略（restart strategy）使Job从最近一次checkpoint自动恢复现场。本文先简要介绍一下3种Job重启策略。

Job重启策略

固定延时重启（fixed-delay）

flink-conf.yaml中的配置：

restart-strategy: fixed-delay
restart-strategy.fixed-delay.attempts: 10
restart-strategy.fixed-delay.delay: 15s

或者在代码里对每个Job进行配置，优先级比flink-conf.yaml高：

env.setRestartStrategy(RestartStrategies.fixedDelayRestart(
  10,               // attempts
  Time.seconds(15)  // delay
));

在Flink Job失败时，该策略按照restart-strategy.fixed-delay.delay参数给出的固定间隔试图重启Job。如果重启次数达到restart-strategy.fixed-delay.attempts参数规定的阈值之后还没有成功，就停止Job。

若我们的Job中启用了检查点机制，并且没有对重启策略做任何设置的话，Flink就会fallback到此策略，但是同时会将重启次数设定为Integer.MAX_VALUE，间隔为10秒。带来的风险是如果Job始终无法恢复，就会无限重试，造成长时间不可用以及日志泛滥（之前在Flink社区群内见到过，如下图）。

Flink CDC 定时任务java代码 flink定时运行job_重启

所以，当启用检查点时，最好手动设定重启策略的参数。

按失败率重启（failure-rate）

flink-conf.yaml中的配置：

restart-strategy: failure-rate
restart-strategy.failure-rate.max-failures-per-interval: 10
restart-strategy.failure-rate.failure-rate-interval: 300s
restart-strategy.failure-rate.delay: 15s

或者在代码里对每个Job进行配置：

env.setRestartStrategy(RestartStrategies.failureRateRestart(
  10,                // max-failures-per-interval
  Time.minutes(5),   // failure-rate-interval
  Time.seconds(15)   // delay
));

在Flink Job失败时，该策略按照restart-strategy.failure-rate.delay参数给出的固定间隔试图重启Job。如果重启次数在restart-strategy.failure-rate.failure-rate-interval的时间周期内达到restart-strategy.failure-rate.max-failures-per-interval参数规定的阈值之后还没有成功，就停止Job。

如果启用了failure-rate重启策略，但没设定参数的话，Flink默认会将3个参数的值分别设定为1次、1分钟和akka.ask.timeout参数指定的超时时间。

无重启（none）

顾名思义，Job出现意外时直接失败。配置方法分别如下：

restart-strategy: none

env.setRestartStrategy(RestartStrategies.noRestart());

当Job内没有启用检查点机制并没有设置重启策略的话，默认会fallback到此策略。

三种Job重启策略说完了。当然，只有它是不够的，还得配合适当的作业监控来为我们提供异常告警，以便及时提醒我们进行检查。笔者不是专业负责监控系统的，就不班门弄斧了。

Flink Job的细粒度组成是Task，Job的失败与重启总是可以追溯到Task级别，所以下面我们来看看Task恢复策略。

Task恢复策略

官方为了与Job重启做区分，将Task的重启策略叫做故障恢复策略（failover strategy），简单的介绍见文档。它由flink-conf.yaml中的jobmanager.execution.failover-strategy参数指定，有两个可选项：

full：重启Job中所有的Task，即重置整个ExecutionGraph，简单粗暴。
region：只重启ExecutionGraph中对应的Region包含的Task，更加智能，降低overhead。

full策略没什么好说的，下面我们根据FLIP-1（Fine Grained Recovery from Task Failures）中给出的设计思想简单分析一下region策略。

根据图论知识，如果我们的ExecutionGraph是一个非连通图（即可以划分为多个独立的依赖pipeline），那么当某个Task失败时，就可以只回溯到该Task所在的连通分量的Source，并重启该连通分量涉及到的所有Task，而其他Task不受影响，如下图所示。此时一个连通分量就是一个Region。

Flink CDC 定时任务java代码 flink定时运行job_重启_02

这个思路很容易理解，但是对于ExecutionGraph本身就是连通图的情况就不高效了，因为还是要重启所有Task，如下图所示。

Flink CDC 定时任务java代码 flink定时运行job_重新启动_03

所以Flink对这种情况又做了一个优化：在发生一对多依赖的Task后面缓存计算出来的中间结果（intermediate result）。当下游的Task失败重启时，就可以不必回溯到Source，而是回溯到中间结果就行了，重启的Task数进一步减少。此时从中间结果缓存起计的所有下游Task形成一个Region。用语言描述可能有些不直观，一张图就能说明白了。

Flink CDC 定时任务java代码 flink定时运行job_重新启动_04

当然，如果是靠近Source一端的Task出了问题，或者中间结果缓存失效，这种方法就行不通了，老老实实从Source重启吧。

篇幅所限（其实是笔者犯懒），本文就不再分析源码了。Job重启策略的相关源码在o.a.f.runtime.executiongraph.restart包，Task重启策略的相关源码在o.a.f.runtime.executiongraph.failover包，看官可以自行找来阅读。

转载自：https://www.jianshu.com/p/50163dc02b5a

＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊

Flink支持不同的重启策略，可以控制在发生故障时如何重新启动作业。可以使用默认重新启动策略启动集群，该策略在未定义任何特定于作业的重新启动策略时始终使用。如果使用重新启动策略提交作业，此策略将覆盖群集的默认设置。

概述

默认重启策略是通过Flink的配置文件设置的flink-conf.yaml。配置参数restart-strategy定义采用的策略。如果未启用检查点，则使用“无重启”策略。如果激活了检查点并且尚未配置重启策略，则固定延迟策略将用于 Integer.MAX_VALUE重启尝试。请参阅以下可用的重新启动策略列表，以了解支持的值。

每个重启策略都有自己的一组参数来控制其行为。这些值也在配置文件中设置。每个重新启动策略的描述包含有关相应配置值的更多信息。

除了定义默认重启策略之外，还可以为每个Flink作业定义特定的重启策略。通过调用上的setRestartStrategy方法以编程方式设置此重新启动策略ExecutionEnvironment。请注意，这也适用于StreamExecutionEnvironment。

以下示例显示了我们如何为我们的工作设置固定延迟重启策略。如果发生故障，系统会尝试重新启动作业3次，并在连续重启尝试之间等待10秒。

1. ExecutionEnvironment env = ExecutionEnvironment.getExecutionEnvironment(); 
2. env.setRestartStrategy(RestartStrategies.fixedDelayRestart( 
3. 3, // number of restart attempts 
4. Time.of(10, TimeUnit.SECONDS) // delay 
5. ));

固定延迟重启策略

固定延迟重启策略尝试给定次数重新启动作业。如果超过最大尝试次数，则作业最终会失败。在两次连续重启尝试之间，重启策略等待一段固定的时间。

通过在中设置以下配置参数，此策略默认启用 flink-conf.yaml

restart-strategy: fixed-delay

配置参数	描述	默认值
restart-strategy.fixed-delay.attempts	Flink在作业声明失败之前重试执行的次数。	1，或者Integer.MAX_VALUE如果通过检查点激活
restart-strategy.fixed-delay.delay	延迟重试意味着在执行失败后，重新执行不会立即开始，而是仅在一定延迟之后。当程序与外部系统交互时，延迟重试可能会有所帮助，例如，在尝试重新执行之前，连接或待处理事务应达到超时。	akka.ask.timeout，如果通过检查点激活，则为10秒

例如：

1. restart-strategy.fixed-delay.attempts: 3 
2. restart-strategy.fixed-delay.delay: 10 s

固定延迟重启策略也可以通过编程方式设置：

1. ExecutionEnvironment env = ExecutionEnvironment.getExecutionEnvironment(); 
2. env.setRestartStrategy(RestartStrategies.fixedDelayRestart( 
3. 3, // number of restart attempts 
4. Time.of(10, TimeUnit.SECONDS) // delay 
5. ));

故障率重启策略

故障率重启策略在故障后重新启动作业，但是当failure rate 超过（每个时间间隔的故障）时，作业最终会失败。在两次连续重启尝试之间，重启策略等待一段固定的时间。

通过在中设置以下配置参数，此策略默认启用flink-conf.yaml。

restart-strategy: failure-rate

配置参数	描述	默认值
重新启动-strategy.failure-rate.max-故障每间隔	失败作业之前的给定时间间隔内的最大重启次数	1
重启strategy.failure-rate.failure速率间隔	测量故障率的时间间隔。	1分钟
重启strategy.failure-rate.delay	两次连续重启尝试之间的延迟	akka.ask.timeout

1. restart-strategy.failure-rate.max-failures-per-interval: 3 
2. restart-strategy.failure-rate.failure-rate-interval: 5 min 
3. restart-strategy.failure-rate.delay: 10 s

故障率重启策略也可以通过编程方式设置：

1. ExecutionEnvironment env = ExecutionEnvironment.getExecutionEnvironment(); 
2. env.setRestartStrategy(RestartStrategies.failureRateRestart( 
3. 3, // max failures per interval 
4. Time.of(5, TimeUnit.MINUTES), //time interval for measuring failure rate 
5. Time.of(10, TimeUnit.SECONDS) // delay 
6. ));

没有重启策略

作业直接失败，不尝试重启

restart-strategy: none

1. ExecutionEnvironment env = ExecutionEnvironment.getExecutionEnvironment(); 
2. env.setRestartStrategy(RestartStrategies.noRestart());

后备重启策略

使用群集定义的重新启动策略。这对于启用检查点的流式传输程序很有帮助。默认情况下，如果没有定义其他重启策略，则选择固定延迟重启策略。

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

上一篇：morefine s600 bios morefine s600 bios功耗

下一篇：如何指定paddle和pytorch使用不同的cudnn库 pytorch padding

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯

Flink CDC 定时任务java代码 flink定时运行job

Flink CDC 定时任务java代码 flink定时运行job

51CTO博客