spark rdd默认分区 spark rdd分区原理

转载

lemon 2023-10-20 06:50:14

文章标签 spark rdd默认分区大数据 spark hadoop RDD 文章分类 Spark 大数据

一、RDD的概念

RDD（Resilient Distributed Dataset），即弹性分布式数据集，是一个容错的、并行的数据结构，可以让用户显式地将数据存储到磁盘和内存中，并且还能控制数据的分区。不同RDD之间可以通过转换操作形成依赖关系实现管道化，从而避免了中间结果的I/O操作，提高数据处理的速度和性能。

一个RDD就是一个分布式对象集合，本质上是一个只读的分区记录集合，每个RDD可以分成多个分区，每个分区就是一个数据集片段，并且一个RDD的不同分区可以被保存到集群中不同的节点上，从而可以在集群中的不同节点上进行并行计算

二、RDD的分区

RDD的分区原则是分区的个数尽量等于集群中的CPU核心（Core）数目。对于不同的Spark部署模式而言，都可以通过设置spark.default.parallelism这个参数值来配置默认的分区数目。

spark rdd默认分区 spark rdd分区原理_大数据

local模式：默认为本地机器的CPU数目，若设置了localN 则默认为N

Standlone/yarn模式：在“集群中所有CPU核数总和”和“2”这两者中取较大值作为默认值

Mesos模式：默认的分区数是8。

三、DAG有向无环图

DAG（Directed Acyclic Graph）叫做有向无环图，Spark中的RDD通过一系列的转换算子操作和行动算子操作形成了一个DAG。DAG是一种非常重要的图论数据结构。如果一个有向图无法从任意顶点出发经过若干条边回到该点，则这个图就是有向无环图。“4→6→1→2”是一条路径，“4→6→5”也是一条路径，并且图中不存在从顶点经过若干条边后能回到该点。

spark rdd默认分区 spark rdd分区原理_hadoop_02

四、RDD的依赖关系

spark rdd默认分区 spark rdd分区原理_spark_03

1：窄依赖

窄依赖是指父RDD的每一个分区最多被一个子RDD的分区使用，即OneToOneDependencies。

窄依赖的表现一般分为两类，第一类表现为一个父RDD的分区对应于一个子RDD的分区；第二类表现为多个父RDD的分区对应于一个子RDD的分区。

一个父RDD的一个分区不可能对应一个子RDD的多个分区。

为了便于理解，我们通常把窄依赖形象的比喻为独生子女。

RDD做map、filter和union算子操作时，是属于窄依赖的第一类表现；而RDD做join算子操作（对输入进行协同划分）时，是属于窄依赖表现的第二类。输入协同划分是指多个父RDD的某一个分区的所有Key，被划分到子RDD的同一分区。当子RDD做算子操作，因为某个分区操作失败导致数据丢失时，只需要重新对父RDD中对应的分区做算子操作即可恢复数据。

spark rdd默认分区 spark rdd分区原理_spark_04

2：宽依赖

宽依赖是指子RDD的每一个分区都会使用所有父RDD的所有分区或多个分区，即OneToManyDependecies。为了便于理解，我们通常把宽依赖形象的比喻为超生。

spark rdd默认分区 spark rdd分区原理_RDD_05

父RDD做groupByKey和join（输入未协同划分）算子操作时，子RDD的每一个分区都会依赖于所有父RDD的所有分区。当子RDD做算子操作，因为某个分区操作失败导致数据丢失时，则需要重新对父RDD中的所有分区进行算子操作才能恢复数据。

窄依赖与宽依赖的区别是是否发生Shuffle（洗牌）操作。宽依赖会发生Shuffle操作，而窄依赖不会发生Shuffle操作

Spark Shuffle一般分为两个部分：Shuffle Write和Shuffle Fetch 前者是Map任务划分分区，输出中间结果；而后者则是Reduce任务获取到的这些中间结果

3：DAG调度阶段

根据RDD之间依赖关系的不同可以将DAG划分成不同的调度阶段，对窄依赖来说，RDD分区的转换处理是在一个线程中完成的，所以窄依赖会被Spark划分到同一个Stage中，而对宽依赖来说，由于有Shuffle存在，因此只能在父RDD处理完成后，下一个Stage才能开始接下来的计算，因此是宽依赖划分Stage的依据

当A做groupByKey转换操作生成B时，由于groupByKey转换操作属于宽依赖类型，所以就把A划分为一个Stage，如Stage1；

当C做Map转换操作生成D， D与E做union转换操作生成F。由于Map和union转换操作都属于窄依赖类型，因此不进行Stage的划分，而是将C、D、E、F加入到同一个Stage中，如Stage2；

当F与B进行join转换操作时，由于这时的join操作是非协同划分，所以属于宽依赖，因此会划分为一个Stage，如Stage3；

spark rdd默认分区 spark rdd分区原理_spark_06

五、RDD在Spark中的运行流程

RDD在Spark中的运行流程分为RDD Objects，DAGScheduler，TaskScheduler以及Worker四个部分

1：当RDD对象创建后 SparkContext会根据RDD对象构建DAG 然后将Task提交给DAGScheduler
2：将作业的DAG划分成不同的Stage，每个stage都是TaskSet任务集合，并交给TaskScheduler
3：把Task发给集群中Worker的Executor
4：把Task运行在Executor进程中