java spark 集群案例 spark集群的角色包括

转载

数据科学家 2023-07-17 14:11:11

文章标签 java spark 集群案例 spark 资源调度用户程序开发人员 文章分类 Java 后端开发

1.Master和Worker

Spark特有资源调度系统的Leader。掌管着整个集群的资源信息，类似于Yarn框架中的ResourceManager，主要功能：
（1）监听Worker，看Worker是否正常工作；
（2）Master对Worker、Application等的管理(接收worker的注册并管理所有的worker，接收client提交的application，(FIFO)调度等待的application并向worker提交)。
2）Worker
Spark特有资源调度系统的Slave，有多个。每个Slave掌管着所在节点的资源信息，类似于Yarn框架中的NodeManager，主要功能：
（1）通过RegisterWorker注册到Master；
（2）定时发送心跳给Master；
（3）根据master发送的application配置进程环境，并启动StandaloneExecutorBackend(执行Task所需的临时进程)

2.Driver和Executor

1）Driver（驱动器）
Spark的驱动器是执行开发程序中的main方法的进程。它负责开发人员编写的用来创建SparkContext、创建RDD，以及进行RDD的转化操作和行动操作代码的执行。如果你是用spark shell，那么当你启动Spark shell的时候，系统后台自启了一个Spark驱动器程序，就是在Spark shell中预加载的一个叫作 sc的SparkContext对象。如果驱动器程序终止，那么Spark应用也就结束了。主要负责：
（1）把用户程序转为任务
（2）跟踪Executor的运行状况
（3）为执行器节点调度任务
（4）UI展示应用运行状况
2）Executor（执行器）
Spark Executor是一个工作进程，负责在 Spark 作业中运行任务，任务间相互独立。Spark 应用启动时，Executor节点被同时启动，并且始终伴随着整个 Spark 应用的生命周期而存在。如果有Executor节点发生了故障或崩溃，Spark 应用也可以继续执行，会将出错节点上的任务调度到其他Executor节点上继续运行。主要负责：
（1）负责运行组成 Spark 应用的任务，并将状态信息返回给驱动器进程；
（2）通过自身的块管理器（Block Manager）为用户程序中要求缓存的RDD提供内存式存储。RDD是直接缓存在Executor进程内的，因此任务可以在运行时充分利用缓存数据加速运算。

因此，Master和Worker是Spark的守护进程，即Spark在特定模式下正常运行所必须的进程。Driver和Executor是临时进程，当有具体任务提交到Spark集群才会开启的进程。

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。