hive on tez 调优 hivejoin优化

转载

coolfengsy 2023-07-14 17:06:57

文章标签 hive on tez 调优 hive 优化操作加载 文章分类 Hive 大数据

MapJoin是Hive的一种优化操作，其适用于小表JOIN大表的场景，由于表的JOIN操作是在Map端且在内存进行的，所以其并不需要启动Reduce任务也就不需要经过shuffle阶段，从而能在一定程度上节省资源提高JOIN效率

方法一：

在Hive0.11前，必须使用MAPJOIN来标记显示地启动该优化操作，由于其需要将小表加载进内存所以要注意小表的大小

SELECT /*+ MAPJOIN(smalltable)*/ .key,value

FROM smalltable JOIN bigtable ON smalltable.key = bigtable.key

方法二：

在Hive0.11后，Hive默认启动该优化，也就是不在需要显示的使用MAPJOIN标记，其会在必要的时候触发该优化操作将普通JOIN转换成MapJoin，可以通过以下两个属性来设置该优化的触发时机

hive.auto.convert.join

默认值为true，自动开户MAPJOIN优化

hive.mapjoin.smalltable.filesize

默认值为2500000(25M),通过配置该属性来确定使用该优化的表的大小，如果表的大小小于此值就会被加载进内存中

0: jdbc:hive2://localhost:10000/cookie> set hive.auto.convert.join;
 hive.auto.convert.join=true 

1 row selected (0.418 seconds)0: jdbc:hive2://localhost:10000/cookie> set hive.mapjoin.smalltable.filesize;
 hive.mapjoin.smalltable.filesize=25000000 

1 row selected (0.022 seconds)

方法一：

在Hive0.11前，必须使用MAPJOIN来标记显示地启动该优化操作，由于其需要将小表加载进内存所以要注意小表的大小

SELECT /*+ MAPJOIN(smalltable)*/  .key,value
FROM smalltable JOIN bigtable ON smalltable.key = bigtable.key

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

上一篇：dataframe索引列 python dataframe索引行

下一篇：dbforge for mysql还原表 studio mysql还原语句

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯

hive on tez 调优 hivejoin优化

hive on tez 调优 hivejoin优化

51CTO博客