spark dataframe 数据倾斜 spark groupby 数据倾斜

转载

laojean 2024-01-11 09:09:53

在大数据开发中，我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜，此时Spark作业的性能会比期望差很多。数据倾斜调优，就是使用各种技术方案解决不同类型的数据倾斜问题，以保证Spark作业的性能。该篇博客参考美团的spark高级版，修改了代码使用了scala写的。

这个方案的核心实现思路就是进行两阶段聚合。第一次是局部聚合，先给每个key都打上一个随机数，比如10以内的随机数，此时原先一样的key就变成不一样的了，比如(hello, 1) (hello, 1) (hello, 1) (hello, 1)，就会变成(1_hello, 1) (1_hello, 1) (2_hello, 1) (2_hello, 1)。接着对打上随机数后的数据，执行reduceByKey等聚合操作，进行局部聚合，那么局部聚合结果，就会变成了(1_hello, 2) (2_hello, 2)。然后将各个key的前缀给去掉，就会变成(hello,2)(hello,2)，再次进行全局聚合操作，就可以得到最终结果了，比如(hello, 4)。

方案实现原理：将原本相同的key通过附加随机前缀的方式，变成多个不同的key，就可以让原本被一个task处理的数据分散到多个task上去做局部聚合，进而解决单个task处理数据量过多的问题。接着去除掉随机前缀，再次进行全局聚合，就可以得到最终的结果。具体原理见下图。

spark dataframe 数据倾斜 spark groupby 数据倾斜_spark

package com.qf.bigdata.test

import scala.util.Random
import org.apache.spark.{SparkConf, SparkContext}

/**
  * 测试
  *       spark中groupby 产生的数据倾斜问题
  *
  *       解决方案
  */
object TestGroupBy {
  def main(args: Array[String]): Unit = {
    val conf=new SparkConf().setAppName("Demo").setMaster("local[2]")
    val sc=new SparkContext(conf)

    //准备数据
    val array=new Array[Int](10000)
    for (i <- 0 to 9999){
      array(i)=new Random().nextInt(10)
    }

    //生成一个rdd
    val rdd=sc.parallelize(array)
    //数据量很大就先取样
    //rdd.sample(false,0.1)

    //所有key加一操作
    val maprdd=rdd.map((_,1))
    //没有加随机前缀的结果
    println("没有加随机前缀的结果(没有经过处理的rdd)++++++++++++++++++++++++")
    maprdd.countByKey.foreach(print)

    println("两阶段聚合（局部聚合+全局聚合）处理数据倾斜++++++++++++++++++++++++")
    //两阶段聚合（局部聚合+全局聚合）处理数据倾斜

    //加随机前缀
    val prifixrdd=maprdd.map(x=>{
      val prifix=new Random().nextInt(10)
      (prifix+"_"+x._1,x._2)
    })

    //加上随机前缀的key进行局部聚合
    val tmprdd=prifixrdd.reduceByKey(_+_)

    //去除随机前缀
    val newrdd=tmprdd.map(x=> (x._1.split("_")(1),x._2))

    //最终聚合
    newrdd.reduceByKey(_+_).foreach(print)
  }
}

这样，数据倾斜的问题就解决了。

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。