Spark006---coalesce和repartition

原创

维格堂406小队 2022-08-04 22:03:18 博主文章分类：★★★Spark ©著作权

文章标签 scala spark apache 数据 文章分类 虚拟化云计算

©著作权归作者所有：来自51CTO博客作者维格堂406小队的原创作品，请联系作者获取转载授权，否则将追究法律责任

Intro

常用的重分区操作，简单记录下

coalesce

根据数据量缩减分区，用于大数据集过滤后，提高小数据集的执行效率。当 spark 程序中，存在过多的小任务的时候，可以通过 coalesce 方法，收缩合并分区，减少分区的个数，减小任务调度成本

默认情况下，不shuffle
即增加分区数，没有变化
减少分区数，会把该分区数据增加到其他分区中，原有分区数据保持不变

import org.apache.spark.sql.SparkSession
import org.apache.spark.rdd.RDD

import org.apache.spark.sql.SparkSession
import org.apache.spark.rdd.RDD

def showPartitionData(dataRDD:RDD[Int]): Unit ={
    val dataRDD1 = dataRDD.mapPartitionsWithIndex(
      (index, datas) => {
        Array(Array(index.toString, datas.toArray)).toIterator
      }
    )
    val arr = dataRDD1.collect().toArray
    arr.foreach(x => {
      val index = x(0)
      val data = x(1).asInstanceOf[Array[Int]].mkString(",")
      println(s"index=${index},data=${data}")
    }
    )
  }

showPartitionData: (dataRDD: org.apache.spark.rdd.RDD[Int])Unit

val spark = SparkSession.builder().master("local[1]").getOrCreate()
    import spark.implicits._
    val dataRDD = spark.sparkContext.makeRDD(List(1, 2, 3, 4, 5, 6), 3)
    showPartitionData(dataRDD)

index=0,data=1,2
index=1,data=3,4
index=2,data=5,6





spark: org.apache.spark.sql.SparkSession = org.apache.spark.sql.SparkSession@58767892
import spark.implicits._
dataRDD: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[0] at makeRDD at <console>:32

三个分区，每个数据两个数据

(dataRDD.coalesce(2))

index=0,data=1,2
index=1,data=3,4,5,6

缩减分区，发现分区0数据没变，分区2的数据合并到分区1

(dataRDD.coalesce(4))

index=0,data=1,2
index=1,data=3,4
index=2,data=5,6

println(dataRDD.coalesce(4).getNumPartitions)

增加分区没有发生变化

而shuffle是会发生变化的，直接看个例子：

println(dataRDD.coalesce(4,shuffle=true).getNumPartitions)

(dataRDD.coalesce(4,shuffle=true))

index=0,data=2,5
index=1,data=3,6
index=2,data=4
index=3,data=1

repartition

简单的说repartition就是shuffle的coalesce

2021-11-17 于南京市江宁区九龙湖

上一篇：Flink001---offset设置窗口起点

下一篇：Spark005---map、mapPartitions

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯