hive优化

原创

大数据同盟会 2022-01-10 15:20:16 博主文章分类：Hive ©著作权

©著作权归作者所有：来自51CTO博客作者大数据同盟会的原创作品，请联系作者获取转载授权，否则将追究法律责任

1、使用分区表和分桶表

2、使用count(1)，不使用count(*)

3、指定明确字段，不使用select * from emp

4、使用特殊的存储格式

 列式存储： orc parquet

5、小表 join 大表，避免笛卡尔积

6、开启map端聚合，默认是打开的

7、避免 count (distinct 字段)

8、适当调整maptask和reducetask个数

9、测试数据时，使用本地模式

set mapreduce.framework.name=yarn(默认)
set mapreduce.framework.name=local

10、去重只有一条的话，使用row_number代替distinct

更多java、大数据学习面试资料，请扫码关注我的公众号：
hive优化_mapreduce

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯