spark的资源调度和任务调度以及粗细粒度资源申请

原创

wx5ba7ab4695f27 2021-06-01 16:24:59 ©著作权

文章标签 spark 文章分类 Spark 大数据

©著作权归作者所有：来自51CTO博客作者wx5ba7ab4695f27的原创作品，请联系作者获取转载授权，否则将追究法律责任

文章目录

spark的资源调度和任务调度

spark的资源调度和任务调度以及粗细粒度资源申请_spark

流程

启动集群后,Worker节点会向Master节点汇报资源情况,Master掌握了资源情况,当Spark提交一个Application后,根据RDD之间的依赖关系将Application形成一个DAG有向无环图,任务提交后,Spark会在Driver端创建两个对象,DAGScheduler和TaskSchedule,DAGScheduler是任务调度的高层调度器,是一个对象,DAGSheduler主要作用是将DAG根据RDD之间的宽窄依赖关系划分为一个个的Stage,然后将Stage以TaskSet的形式提交给TaskSchedule

TaskSchedule是任务调度的低层调度器,这里TaskSet其实就是一个集合,里面封装的就是一个个task任务,也就是stage中的并行度task任务

TaskSchedule 会遍历TaskSet 集合，拿到每个 task 后会将 task 发送到计算节点 Executor 中去执行（其实就是发送到 Executor 中的线程池 ThreadPool 去执行）。task 在Executor 线程池中的运行情况会向 TaskScheduler 反馈，当 task 执行失败时，则由 TaskScheduler 负责重试，将 task 重新发送给 Executor 去执行，默认重试 3 次。如果重试 3 次依然失败，那么这个 task 所在的 stage 就失败了。stage 失败了则由 DAGScheduler 来负责重试，重新发送 TaskSet 到TaskSchdeuler，Stage 默认重试 4 次。如果重试 4 次以后依然失败，那么这个 job 就失败了。job 失败了，Application 就失败了。

TaskScheduler 不仅能重试失败的 task,还会重试 straggling（落后，缓慢）task（也就是执行速度比其他 task 慢太多的 task）。如果有运行缓慢的 task那么 TaskScheduler 会启动一个新的 task 来与这个运行缓慢的 task 执行相同的处理逻辑。两个 task 哪个先执行完，就以哪个 task 的执行结果为准。

这就是 Spark 的推测执行机制。在 Spark 中推测执行默认是关闭的。推测执行可以通过 spark.speculation 属性来配置