hive sql调优语句 hive调优与参数设置

转载

jkfox 2023-07-12 19:23:58

文章标签 hive sql调优语句 hive big data sql Group 文章分类 Hive 大数据

1、分区设置

set hive.exec.dynamic.partition = False

设置 True 表示开启动态分区功能。

set hive.exec.dynamic.partition.mode = strict ;

设置成 nonstrict 表示允许所有分区都是动态的。

set hive.exec.max.dynamic.partitions.pernode = 100 ;

每个mapper 或reducer 可以创建的最大动态分区个数。如果每个mapper或reducer 尝试创建大于这个值的分区的话则会跑出一个致命错误信息。

2、job设置

set hive.exec.parallel = False;

控制在同一个sql中的不同job是否可以同时运行，默认为FALSE，当参数为false的时候，job是按照顺序执行。

当为True时，子查询中并无关系的sql可以并行。在资源充足的时候hive.exec.parallel会让那些存在并发job的sql运行得更快,但同时消耗更多的资源

在共享集群中，需要注意下，如果 job 中并行阶段增多，那么集群利用率就会增加。

set hive.exec.parallel.thread.number = 8;

控制对于同一个sql来说同时可以运行的job的最大值,该参数默认为8.此时最大可以同时运行8个job.

set hive.map.aggr=True;

在mapper端部分聚合，相当于Combiner， Map-Side聚合（一般在聚合函数sum,count时使用）。

set hive.groupby.skewindata=True;

当选项设定为 true，生成的查询计划会有两个 MR Job。第一个 MR Job 中，Map 的输出结果集合会随机分布到 Reduce 中，每个 Reduce 做部分聚合操作，并输出结果，这样处理的结果是相同的 Group By Key 有可能被分发到不同的 Reduce 中，从而达到负载均衡的目的；第二个 MR Job 再根据预处理的数据结果按照 Group By Key 分布到 Reduce 中（这个过程可以保证相同的 Group By Key 被分布到同一个 Reduce 中），最后完成最终的聚合操作.

set hive.groupby.mapaggr.checkinterval=100000;

这个是group的键对应的记录条数超过这个值则会进行分拆,值根据具体数据量设置。

set hive.merge.mapfiles = true;

是否和并 Map 输出文件，默认为 True

set hive.merge.mapredfiles = False;

是否合并 Reduce 输出文件，默认为 False

set hive.merge.size.per.task = 256*1000*1000;

合并文件的大小

set hive.mapred.reduce.tasks.speculative.execution = True;

reducer阶段是否开启推测执行

所谓的推测执行，就是当所有task都开始运行之后，Job Tracker会统计所有任务的平均进度，如果某个task所在的task node机器配置比较低或者CPU load很高（原因很多），导致任务执行比总体任务的平均执行要慢，此时Job Tracker会启动一个新的任务（duplicate task），原有任务和新任务哪个先执行完就把另外一个kill掉，这也是我们经常在Job Tracker页面看到任务执行成功，但是总有些任务被kill，就是这个原因。

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。