1、使用分区表和分桶表

2、使用count(1),不使用count(*)

3、指定明确字段,不使用select * from emp

4、使用特殊的存储格式

 列式存储: orc parquet

5、小表 join 大表,避免笛卡尔积

6、开启map端聚合,默认是打开的

7、避免 count (distinct 字段)

8、适当调整maptask和reducetask个数

9、测试数据时,使用本地模式

set mapreduce.framework.name=yarn(默认)
set mapreduce.framework.name=local

10、去重只有一条的话,使用row_number代替distinct

更多java、大数据学习面试资料,请扫码关注我的公众号:
hive优化_mapreduce