application:spark应用程序
指用户编写的spark代码,包含了运行在driver端的代码和运行在各个节点上的executor代码
driver:驱动程序
程序中编写的main方法和创建的sparkContext
sparkContext
spark运行环境,用来和clusterManager进行通信
clusterManager:资源管理器
对于standalone模式就是master
对于yarn模式就是resourceManager
worker
spark集群中的从节点,真正干活的,需要启动executor进程去执行任务
executor
运行在worker节点的JVM进程,一个worker可以运行多个executor,因为可以提交多个应用
RDD
弹性分布式数据集,分布在各个worker上的叫做分区
shuffleDependency 宽依赖
父RDD的一个分区会被子RDD的多个分区所依赖
narroeDependency 窄依赖
父RDD的一个分区会被子RDD的一个分区依赖
DAG:有向五环图
指RDD的转化流程,从RDD的创建开始,到Action结束就会形成一个DAG
一个SPARK应用可能会有多个DAG,这取决于触发了多少次action
JOB
按照DAG中各个stage阶段进行执行就称作一个job作业
stage
是DAGScheduler根据shuffle/宽依赖对DAG进行的阶段划分,划分好的stage包含多个task组成的taskSet
TaskSet
一个stage中的多个task组成的集合
Task
RDD的一个分区在计算的时候就是一个Task
[外链图片转存失败(img-xgJO3PQY-1567998168476)(en-resource://database/7925:0)]