hive suffer 优化排序 hive union优化

转载

mob64ca1405664d 2023-08-18 23:28:45

hivesql应该越简单约好，sql优化一定要先确定瓶颈，瓶颈确定了才能针对性的去进行优化，否则就是自寻烦恼

一般来说stage越多，意味着中间会有更多的中间数据落地磁盘，增大网络IO磁盘IO，建议熟练使用HIVE新版本支持的groupsetting函数去替换

数据块较大且集中，意味着会增大网络传输压力，数据块较小较多，会增大namenode读写的压力，join的时候可能会消耗大量的cpu/memory资源

适时使用HIVE分区分桶机制

使用sql-hint，在sql中/*+mapjoin(little table)*/指定mapjoin小数据量表，在map阶段完成连接计算，通过此语法实现对计算引擎执行过程的干预

新版本的hive3.x对count(distinct)的算法有所优化（需要设置hive.optimization.countdistinct 此参数）

但是还是希望改成group by的方式来代替，conunt（disctinct）一般只会有一个reduce来处理，如果数据量大很容易遇到数据倾斜问题

打开向量化开关之后可以批量读取数据，可以大大减少扫描、过滤器、聚合和连接等典型查询操作的cpu使用，减少底层操作系统处理数据时的指令和上下文切换

set hive.vectorized.execution.enabled=true;
set hive.vectorized.execution.reduce.enabled=true;

并行这行是大数据分布式计算的核心概念，sql开发者提交的每个sql都会尽量被分解成各个可以并行执行的任务去执行

set hive.exec.parallel=true; //可以开启并发执行
set hive.exec.parallel.thread.number=16; //同一个sql允许最大并行度，默认为8。

mapjoin的开启类似spark的小表广播变量，mapjoin会启动一个job，读取小表的数据，在内存中去构建hash，然后落地写到磁盘再分发到分布式缓存中，然后与另一个表进行连接计算

如果在同一个sql中发生了join和groupby而且是作用于同一个appkey，可以设置此参数，避免重复再shuffle阶段进行hash

set hive.optimize.correlation=true;

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯

hive suffer 优化 排序 hive union优化