1、使用分区表和分桶表
2、使用count(1),不使用count(*)
3、指定明确字段,不使用select * from emp
4、使用特殊的存储格式
列式存储: orc parquet
5、小表 join 大表,避免笛卡尔积
6、开启map端聚合,默认是打开的
7、避免 count (distinct 字段)
8、适当调整maptask和reducetask个数
9、测试数据时,使用本地模式
set mapreduce.framework.name=yarn(默认)
set mapreduce.framework.name=local
10、去重只有一条的话,使用row_number代替distinct
更多java、大数据学习面试资料,请扫码关注我的公众号: