hive rbo 配置 hive.cbo.enable

转载

mob6454cc7ccdfc 2023-07-12 18:51:26

文章标签 hive rbo 配置大数据 hive hadoop Powered by 金山文档 文章分类 Hive 大数据

CBO优化

CBO是指Cost based Optimizer，即基于计算成本的优化。

在Hive中，计算成本模型考虑到了：数据的行数、CPU、本地IO、HDFS IO、网络IO等方面。

主要是数据的行数

Hive会计算同一SQL语句的不同执行计划的计算成本，并选出成本最低的执行计划。

目前CBO在hive的MR引擎下主要用于join的优化，例如多表join的join顺序。

-- 是否启用cbo优化 
set hive.cbo.enable=true;

谓词下推

谓词下推（predicate pushdown）是指，尽量将过滤操作前移，以减少后续计算步骤的数据量。

--是否启动谓词下推（predicate pushdown）优化
set hive.optimize.ppd = true;

需要注意的是：

CBO优化也会完成一部分的谓词下推优化工作，因为在执行计划中，谓词越靠前，整个计划的计算成本就会越低。

矢量化查询

Hive的矢量化查询优化，依赖于CPU的矢量化计算。

CPU的矢量化计算的基本原理，类似矩阵，将多个单独计算做成矩阵一次性提交计算

set hive.vectorized.execution.enabled=true;
-- 若执行计划中，出现“Execution mode: vectorized”字样，即表明使用了矢量化计算。

Hive的矢量化查询，可以极大的提高例如scans, filters, aggregates, andjoins等典型查询场景下的CPU使用效率。

Fetch抓取

Fetch抓取是指Hive中对某些情况的查询可以不必走MapReduce计算

--是否在特定场景转换为fetch 任务
--设置为none表示不转换
--设置为minimal表示支持select *，分区字段过滤，Limit等
--设置为more表示支持select 任意字段,包括函数，过滤，和limit等
set hive.fetch.task.conversion=more;

并行执行

不相关没有相互依赖的stage同时进行，这里的并行指的是stage的并行。

Hive会将一个SQL语句转化成一个或者多个Stage，每个Stage对应一个MRJob。默认情况下，Hive同时只会执行一个Stage。但是某SQL语句可能会包含多个Stage，但这多个Stage可能并非完全互相依赖，也就是说有些Stage是可以并行执行的。

--启用并行执行优化
set hive.exec.parallel=true;       
    
--同一个sql允许最大并行度，默认为8
set hive.exec.parallel.thread.number=8;

严格模式

为了安全，防止一些误操作

分区表不使用分区过滤

对于分区表，除非where语句中含有分区字段过滤条件来限制范围，否则不允许执行。换句话说，就是用户不允许扫描所有分区。

set.hive.strict.checks.no.partition.filter设置为true时

使用order by没有limit过滤

set.hive.strict.checks.orderby.no.limit设置为true时

对于使用了order by语句的查询，要求必须使用limit语句。

开启了limit可以在数据进入到Reduce之前就减少一部分数据。

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

上一篇：软件架构前的准备工作软件架构重要性

下一篇：965架构代号架构代码

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯