一些函数: 1.append和overwrite: append 在原有分区上进行追加数据操作,overwrite在原有分区上进行全量刷新操作 2.coalesce和repartition coalesce和repartiton都用于改变分区 coalesce 不进行shuffle,多用于减少分区,在了解源码中,coalesce可传参数,选择是否进行shuffle。 repartiton 必shu
转载 2023-07-10 21:07:53
279阅读
一、总括Shuffle是进行重新分区的过程,即上游RDD与下游RDD是宽依赖的关系。以下操作可能会引起Shuffle (1)重新调整分区操作:repartiton,coalesce (2)*ByKey:groupByKey,reduceByKey (3)关联操作:join 二、shuffle Manager改进1-》Spark在1.1以前的版本一直是采用Hash Shuffle的实现的方式 2-》