Spark 限制job数

转载

mob64ca140bbb8b 2024-09-14 09:32:30

文章标签 Spark 限制job数大数据 spark 运行环境资源管理器 文章分类 Spark 大数据

Spark运行模式

一：Spark 运行架构介绍

　　相关术语概念详解：

　　　　Application：指的是用户编写的Spark应用程序，包含了一个Driver功能的代码和分布在集群中多节点上运行的Executor代码。

　　　　Driver：Spark中的Driver就是运行Application的main()函数，并且创建SparkContext。SparkContext为Spark准备运行环境，它负责和ClusterManager通信，进行资源的申请、任务的分配和监控，当Executor部分运行完毕后，负责将SparkContext关闭。

　　　　Worker：集群中运行Application代码的节点。可以理解为服务器。

　　　　Executor：Application运行在work节点上的一个进程，该进程负责运行task。（理解work节点上的一个进程，来执行Driver的任务task）

　　　　ClusterManager：在集群上获取资源的外部服务。

　　　　Job(作业)：包含多个task组成的并行计算。rdd包括转换和运行Action，只要有一个Action就是一个Job。

　　　　Stag（阶段）：每个Job会被拆分成多组task。

　　　　Task（任务）：最终被推送的到Executor进程上的任务。

　　Spark基本任务流程图

Spark 限制job数_运行环境