调整partition数量,每次reduece和distict的时候都应该调整,数量太大和太小都不好,通常来讲保证一个partition的大小在1~2G左右为宜

调整excutors

调整core

调整内存

使用cache (但是在内存不够的情况下,最好不要用,可能会频繁GC)

尽量减少shuffle运算

尽量减少网络传输

少量数据可以使用broadcast