Apache DolphinScheduler 源码剖析之 Worker 容错处理流程

转载

海豚调度平台 2022-01-05 14:30:06

文章标签 github apache 源码剖析 文章分类 代码人生

作者zixi0825

今天给大家带来的分享是 Apache DolphinScheduler 源码剖析之 Worker 容错处理流程

Worker容错流程是这样的：

1. 当 ZooKeeper 监听到有 Worker 节点挂了，就会去通知 Master 进行容错

2. 收到通知的 Master 会通过分布式锁去“抢”到容错的操作，拿到锁的 Master 开始进行容错处理。

3. 容错的流程如下：

3.1 通过已下线的 Worker 的地址和表示[正在运行]的状态数组获取需要容错的TaskInstance 列表。

3.2 遍历列表对每个 TaskInstance 进行处理：

3.2.1 判断这个 TaskInstance 是否需要容错，因为 Worker 宕机以后有可能被 Monitor 重启动成功，那么 Master 会继续给它分配任务，所以只有老 Worker 上正在运行的 TaskInstance 需要容错，【3.1】里面拿到的需要容错的TaskInstance 列表可能会存在新 Worker 所执行的任务

3.2.2 检查 Task 是否存在 YarnApplicationId，如果存在的话就把 Yarn 任务Kill 掉

3.2.3 将 TaskInstance 的状态更新为 NEED_FAULT_TOLERANCE，更新到数据库里面

Master的任务调度处理如下：

在 MasterExecThread 这个线程里面如果检测到任务的状态为 NEED_FAULT_TOLERANCE，会进行 Alert，同时会将任务放到 readyToSubmitTaskList，重新分发给 Worker 去运行

Apache DolphinScheduler 源码剖析之 Worker 容错处理流程_源码剖析