hive 数据倾斜加上随机数

转载

烂漫树林 2024-11-04 21:22:15

文章标签 hive 数据倾斜加上随机数 Hadoop Hive 数据倾斜 hive 文章分类 Hive 大数据

Hive下的数据倾斜的场景

在我们的学习，还是生活中，经常会出现数据倾斜的问题，那么什么是数据倾斜问题呢，让我们来复现一下我们的要求。
首先，我写了两个表，其中user表5000万数据量，观影表2亿条数据，现如今需要的是，各个年龄段的观影数量排名。
环境：

hadoop 2.7
hive 1.2.1
centos 6.8 虚拟机 1核 8G

来吧让我们愉快的去创造数据把

import java.io.{File, PrintWriter}
import java.util.UUID

import scala.util.Random

/**
  * Copyright (c) 2019 wu ALL Rights Reserved
  *
  * Project: ScalaLanguage
  * Package: 
  * Version: 1.0
  * Created by HeartisTiger on 2019/9/8 21:19
  */
object Test01 {
  def main(args: Array[String]): Unit = {
    val ran = new Random()
    val ages =  Array[Int](15,13,25,26,27,28,29,30,32,34,38,39,40,41,58,52,61,70,80)
    var age = 0;
    val print1 = new PrintWriter(new File("user.txt"))
    val print2 = new PrintWriter(new File("movies.txt"))
    var name = ""
    for(uid <- 1 to 50000000){
        age = ages(ran.nextInt(ages.length))
      name = UUID.randomUUID().toString
      print1.println(s"$uid,$name,$age")
    }
    for(uid <- 1 to 200000000){
           val uid = ran.nextInt(50000000)
           val url = UUID.randomUUID().toString
            print2.println(s"$uid,$url")
    }
    print1.close()
    print2.close()
  }
}

此时我们可以想到，看电影的年龄段，什么时候的看电影最多呢，肯定是我们的20-30-40岁依次递进的，其他的看电影的并不没有以上的年龄段的观影次数多。当然生产环境中年龄肯定不是数字表示，是用生日表示的，为了方便起见我们用年龄来制作我们的模拟数据。

hive 数据倾斜加上随机数_hive 数据倾斜加上随机数

hive 数据倾斜加上随机数_数据倾斜_02

这里是截取的我们的数据，我们想要求出来这个需求，我们首先应该是建立我们的测试数据表。

创建表

create table user(
id int,
name string,
age string
)
row format delimited fields terminated by ','
stored as textfile;

create table movies(
id int,
url string)
row format delimited fields terminated by ','
stored as textfile;

此时我们需要对我们的需求进行求取的过程中，需要用到mapjoin操作，此时我们可以把我们user表放置在join字段的左侧，movies放置在我们的右侧，在新版的测试当中，我们mapjoin是自动打开的，此时会在构建语法树的过程中，自动进行我们的map join 优化，所以我只是测试放置在左边的效果。
查询语句

select age,count(1) ct from (select split(age,'')[0] * 10 as age 
from user1 u join movies m on u.id = )t
group by age;

hive 数据倾斜加上随机数_Hadoop_03

此时执行了934秒的时候，我们的mapper还没有执行完毕，数据量确实比较大，我再继续耐心等待，哈哈。

先去洗澡，跑完不知道什么时候呢，我们慢慢的对我们的hive程序进行优化。

hive 数据倾斜加上随机数_数据倾斜_04

此时我们的时间消耗是34分钟，我们是否可以让我们运行时间进行进一步的缩减了。

那么我们数据倾斜发生在哪里呢，我们的数据倾斜，是发生在我们的shuffle算子的过程中，大量的key聚集到某一个reducer上进行聚合，并不是一个并行的操作，此时我们的处理时长就存在了木桶效应，也就是处理时间最长的分区决定了我们的运行的总时长。

hive 数据倾斜加上随机数_数据倾斜_05

此时我们同时尝试一下我们的spark的效果

hive 数据倾斜加上随机数_hive_06

Spark 比我们的hadoop 快了很多，其实绝大部分情况下spark比hadoop快，但是有一些很极端的情况下不一定有我们的hadoop快，这是不一定的。

我们在测试的过程中可以明显的看到，spark确实比MR快了10倍，但是这个效果，我们还是不满意怎么办呢。

DAG图

hive 数据倾斜加上随机数_Hadoop_07

hive 数据倾斜加上随机数_Hadoop_08

此时出现了数据倾斜问题，那么我们如何做呢

首先，开启map段语句和操作

set hive.map.aggr = true

开启在map端进行聚合的条数，这个不是随机设置的，要根据数据来计算

set hive.groupby.mapaggr.checkinterval = 10000

开启数据倾斜时，自动负载均衡

set hive.groupby.skewindata = true

hive 数据倾斜加上随机数_hive_09

碍于机器的性能原因，差不多也就这样了。大规模集群会很快的。

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

上一篇：python 转为 yyyymmdd

下一篇：MySQL rsa 密钥

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯