hive topn hive topn优化

转载

level 2024-01-11 13:10:59

Hive调优梳理：

GZip压缩率高，消耗CPU更高
Snappy压缩率和CPU消耗更均匀

高效的文件格式
压缩格式
列裁剪
分区裁剪
分桶

1. 避免笛卡尔积

2. 谓词下推

set hive.optimize.ppd=true
一种逻辑优化，尽早对底层数据进行过滤以减少后续以减少后续需要处理的数据量

3. map端聚合功能

set hive.map.aggr=true
在map中会做部分聚合操作，能够使map传送给reduce的数据量大大减少

4. 使用Hive合并输入格式

set hive.input.format=org.apache.hadoop.hive.ql.io.CombineHiveInputFormat;

5. 合并小文件

调整map和reduce的内存
调整map和reduce的虚拟核数
mapreduce.map.cpu.vcores & mapreduce.reduce.cpu.vcores
（不要超过yarn.nodemanager.resource.cpu-vcores）

1. 相关性优化器（set hive.optimize.correlation=true）输入相关性、作业流程相关性

2. 基于代价的优化（set hive.cbo.enable=true）基于（FS读写、CPU）等代价对查询计划优化

3. 向量化查询引擎（set hive.vectorized.execution.enabled=true）

对数据处理是以行为行为，依次处理。向量化特性通过每次处理1024行数据，列方式处理，从而减少了方法的调用，降低了CPU消耗，提高利用率（减少扫描、过滤、聚合和关联的CPU使用率）

4. Join相关优化（mapjoin，semi-join）

5. Multiple Insert特性

6. TableSample抽样查询

7. Limit优化

启动limit优化，使用limit不再是全表查出，而是抽样查询。

set hive.limit.optimize.enable=true;
set hive.limit.row.max.size=10000;
set hive.limit.optimize.limit.file=10;

8. 局部排序（Sort by，Distribute by）

关键参数：

经验：

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯

51CTO博客