Spark性能调优第四季

spark性能调优之序列化

spark JVM性能调优

一、spark性能调优之序列化

1.之所以进行序列化,最重要的原因是内存空间有限(减少GC的压力,最大化的避免Full GC的产生,一旦产生Full GC则整个Task处于停止状态),减少磁盘IO的压力、减少网络IO的压力;

2.什么会产生必要的序列化和反序列化?发生磁盘IO和网络通信的时候需要序列化和反序列化,更为重要是考虑序列化和反序列化的时候有两种情况:

a)persist(checkpoint)的时候必须考虑序列化和反序列化,例如说cache到内存的时候只能使用JVM分配的60%的内存空间,此时好的序列化机制就至关重要;

b)编程的时候,使用算子的函数的操作如果传入了外部数据就必须进行序列化和反序列化;

conf.set(spark.serializer.org.apache.spark.serializer.KryoSerializer)
conf.resistryKryoClass(Array(classOf[Person]))
val person = new Person()
rdd.map(item=>person.add(item))

3.强烈建议使用Kryo序列化器进行序列化和反序列化;Spark默认情况下使用的不是Kryo而是Java自带的序列化器;ObjectInput Stream和ObjectOutputStream(主要是考虑了方便性和通用性);如果自定义的RDD中数据元素的类型则必须实现Serializable接口,当然你也可以实现自己的序列化接口Exteralizable来实现更加高效的Java序列化算法,采用ObjectInput Stream和ObjectOutputStream会导致序列化后数据占用大量的内存或者大量的消耗网络,并且在序列化和反序列化的时候比较消耗CPU;

4.强烈建议采用Kryo序列化机制,Spark下使用Kryo序列化机制会比Java默认的序列化机制更加节省空间(节省近10倍的空间)以及更少的消耗CPU,强烈建议在一切情况下使用Kryo序列化机制;

5.使用Kryo的两种方式:

a)在spark-defaults.conf中配置

b)在程序的sparkConf中配置,

conf.set(spark.serializer.org.apache.spark.serializer.KryoSerializer)

使用Kryo可以更加快速、更低存储空间的占用量以及更高性能的方式来进行序列化;

6.Spark中Scala常用的类型自动的通过AllScalaRegister注册给了Kryo进行序列化管理;

7.如果进行自定义的类型必须注册给序列化器,例如:

conf.set(spark.serializer.org.apache.spark.serializer.KryoSerializer)
conf.resistryKryoClass(Array(classOf[Person]))
val person = new Person()
rdd.map(item=>person.add(item))

8.Kryo在序列化的时候会缓存空间默认大小为2MB,可以根据具体的业务模型调整大小,具体方式:

设置spark.kryoserializer.buffer为10MB

9.在使用Kryo的时候强烈建议注册时写完整的包名和类名,否则每次序列化的时候都会保存一份包名和类名的完整信息,这就会不必要的消耗内存空间;

 

二、spark JVM性能调优

1.好消息是spark的钨丝计划是用来专门解决JVM性能问题,不好的消息是至少在spark2.0以前钨丝计划功能不稳定、不完善且只能在特定的情况下发生作用,也就是说包括spark.1.6.0在内的spark以及以前的版本我们大多数情况下没有使用钨丝计划的功能,所以此时就必须关注JVM性能调优;

2.JVM性能调优的关键是调优GC,为什么GC如此重要,主要是因为Spark热衷于RDD的持久化!!!GC本身的性能的开销是和数据量成正比的;

3.初步可以考虑的是尽量多的使用array和String,并且在序列化机制方面尽可能的采用Kryo,这样每个partition都成为字节数组;

4.监视GC的基本方式有两种:

a)配置spark-executor-extraJavaOptions=-verbose:gc -XX:+PrintGCDetails -XX:+ PrintGCDateTimeStamps

b)SparkUI

5.Spark在默认情况下使用60%的内存空间进行cache缓存RDD的内容,也就说task的执行的时候只能使用剩下的40%;如果空间不够用就会(频繁的)触发GC

可以设置spark-memory.fraction参数来进行调整空间的使用,例如降低cache的空间,让Task使用更多的空间来创建对象和完成计算;

再次,强烈建议使用RDD从Cache的时候使用kryo序列化机制,从而给task可以分配更大的空间来完成计算(避免频繁的GC)

6.因为在老年代空间满的时候会发生Full GC操作,而老年代空间中基本都是活的比较久的对象(经历了数次GC依旧存在的对象),此时会停下所有的线程,进行Full GC,对old区中的对象进行整理,严重影响性能;

a)可以考虑设置spark-memory.fraction参数来进行调整空间的使用来给年轻代更多的空间用于存放短时间的存活的对象;

b)-Xmn调整Eden区域;

c)对RDD中操作的对象和数据大小的评估,如果HDFS上解压后一般体积可能变成远离啊体积的3倍左右;根据数据的大小来设置Eden;如果有10个Task,每个Task处理的HDFS上的数据是128MB,则需要设置-Xmn为10*128*3*4/3的大小;

d)-XX:SupervisorRatio

e)-XX:NewRatio