spark thriftserver 启动参数指定队列 spark指定节点运行任务

转载

mob6454cc6e409f 2023-12-15 05:12:19

文章标签 1024程序员节 spark 分布式应用程序 RPC 文章分类 Spark 大数据

Spark：关于yarn中的AM的启动流程问题的探索

Spark中的三种分布式集群部署模式:
Spark：Yarn三大组件（模块）

ResourceManager
NodeManager
ApplicationMaster

需再次明确的概念：AM
Spark on YARN的两种模式
具体阐述YARN-Cluster模式的AM执行流程：
我自己看完的总结：

Spark中的三种分布式集群部署模式:

当以分布式集群部署的时候，可以根据自己集群的实际情况选择Standalone模式（Spark自带的模式）、YARN-Client模式或者YARN-Cluster模式。Standalone模式是Spark实现的资源调度框架，其主要的节点有Client节点、Master节点和Worker节点。其中Driver既可以运行在Master节点上中，也可以运行在本地Client端。

Spark：Yarn三大组件（模块）

ResourceManager（RM）、NodeManager（NM）、ApplicationMaster（AM）。

ResourceManager

负责整个集群所有资源的监控、分配和管理。

NodeManager

每个节点的资源和任务的管理器，负责启动和停止Container，并监视资源使用情况，且负责每一个节点的维护。

ApplicationMaster

负责每一个具体应用程序的调度和协调，Yarn中每个Application对应一个AM进程，获取资源后告诉NodeManager为其分配并启动Container。

需再次明确的概念：AM

在YARN中，每个Application实例都有一个ApplicationMaster进程，它是Application启动的第一个容器。它负责和ResourceManager打交道并请求资源，获取资源之后告诉NodeManager为其启动Container。

Spark on YARN的两种模式

根据Driver在集群中的位置分为两种模式：一种是YARN-Client模式，另一种是YARN-Cluster（其实即YARN-Standalone模式，注意这里的YARN-Standalone和上述的standalone不是一个东西）。

YARN-Client模式的AM是运行在提交任务的节点，Yarn-Client模式中，Driver在客户端本地运行。

而YARN-Cluster模式的AM是由YARN在集群中选取一个节点运行，不一定是在提交任务的节点运行。

具体阐述YARN-Cluster模式的AM执行流程：

Spark Yarn Client向YARN中提交应用程序，包括ApplicationMaster程序、启动ApplicationMaster的命令、需要在Executor中运行的程序等；
ResourceManager收到请求后，在集群中选择一个NodeManager，为该应用程序分配第一个Container，要求它在这个Container中启动应用程序的ApplicationMaster，其中ApplicationMaster进行SparkContext等的初始化；
ApplicationMaster向ResourceManager注册，这样用户可以直接通过ResourceManage查看应用程序的运行状态，然后它将采用轮询的方式通过RPC协议为各个任务申请资源，并监控它们的运行状态直到运行结束；
一旦ApplicationMaster申请到资源（也就是Container）后，便与对应的NodeManager通信，要求它在获得的Container中启动启动CoarseGrainedExecutorBackend，CoarseGrainedExecutorBackend启动后会向ApplicationMaster中的SparkContext注册并申请Task。这一点和Standalone模式一样，只不过SparkContext在Spark Application中初始化时，使用CoarseGrainedSchedulerBackend配合YarnClusterScheduler进行任务的调度，其中YarnClusterScheduler只是对TaskSchedulerImpl的一个简单包装，增加了对Executor的等待逻辑等；
ApplicationMaster中的SparkContext分配Task给CoarseGrainedExecutorBackend执行，CoarseGrainedExecutorBackend运行Task并向ApplicationMaster汇报运行的状态和进度，以让ApplicationMaster随时掌握各个任务的运行状态，从而可以在任务失败时重新启动任务；
应用程序运行完成后，ApplicationMaster向ResourceManager申请注销并关闭自己。

上述的七条流程是查找资料文献官方阐述的流程。

我自己看完的总结：

在YARN-Cluster模式中，当用户向YARN中提交一个应用程序后，YARN将分两个阶段运行该应用程序：

第一个阶段是把Spark的Driver作为一个ApplicationMaster在YARN集群中先启动；

第二个阶段是由ApplicationMaster创建应用程序，然后为它向ResourceManager申请资源，并启动Executor来运行Task，同时监控它的整个运行过程，直到运行完成。

流程：

步骤1　用户向YARN中提交应用程序，其中包括ApplicationMaster程序、启动ApplicationMaster的命令、用户程序等。

步骤2　ResourceManager为该应用程序分配第一个Container，并与对应的Node-Manager通信，要求它在这个Container中启动应用程序的ApplicationMaster。

步骤3　ApplicationMaster首先向ResourceManager注册，这样用户可以直接通过ResourceManager查看应用程序的运行状态，然后它将为各个任务申请资源，并监控它的运行状态，直到运行结束，即重复步骤4~7。

步骤4　ApplicationMaster采用轮询的方式通过RPC协议向ResourceManager申请和领取资源。

步骤5　一旦ApplicationMaster申请到资源后，便与对应的NodeManager通信，要求它启动任务。

步骤6　NodeManager为任务设置好运行环境（包括环境变量、JAR包、二进制程序等）后，将任务启动命令写到一个脚本中，并通过运行该脚本启动任务。

步骤7　各个任务通过某个RPC协议向ApplicationMaster汇报自己的状态和进度，以让ApplicationMaster随时掌握各个任务的运行状态，从而可以在任务失败时重新启动任务。
在应用程序运行过程中，用户可随时通过RPC向ApplicationMaster查询应用程序的当前运行状态。

步骤8　应用程序运行完成后，ApplicationMaster向ResourceManager注销并关闭自己。

YARN-Cluster模式下，Driver运行在AM中，它负责向YARN申请资源，并监督作业的运行状况。当用户提交了作业之后，就可以关掉Client，作业会继续在YARN上运行，因而YARN-Cluster模式不适合运行交互类型的作业。

在书中有这样的表述和具体的代码：

spark thriftserver 启动参数指定队列 spark指定节点运行任务_RPC