spark 中的seq

转载

doscommand 2024-09-17 16:41:19

文章标签 spark 中的seq 序列化 spark 数据 文章分类 Spark 大数据

注册类序列化KryoSerializer

操作步骤

Spark程序运行时，在 shuffle 和 RDD Cache 等过程中，会有大量的数据需要序列化，默认使用 JavaSerializer，通过配置让 KryoSerializer 作为数据序列化器来提升序列化性能。

在开发应用程序时，添加如下代码来使用 KryoSerializer 作为数据序列化器。

在spark中默认的Java序列化方式在这方面是不尽如人意的。Java序列化很灵活但性能较差，同时序列化后占用的字节数也较多。

所以官方也推荐尽量使用Kryo的序列化库（版本2）。官文介绍，Kryo序列化机制比Java序列化机制性能提高10倍左右，Spark之所以没有默认使用Kryo作为序列化类库，是因为它不支持所有对象的序列化，同时Kryo需要用户在使用前注册需要序列化的类型，不够方便。

● 实现类注册器并手动注册类。

package com.etl.common;
import com.esotericsoftware.kryo.Kryo;
import org.apache.spark.serializer.KryoRegistrator;
 
public class DemoRegistrator  implements KryoRegistrator  {
    @Override
    public void registerClasses (Kryo kryo) {
        //以下为示例类，需注册自定义类
        kryo.register(AggrateKey.class);
        kryo.register(AggrateValue.class);
    }
}

可以在Spark客户端对 spark.kryo.registrationRequired 参数进行配置，设置是否需要 Kryo 注册序列化。

当参数设置为true时，如果工程中存在未被序列化的类，则会抛出异常。如果设置为 false （默认值），kryo会自动将未注册的类名写到对应的对象中。此操作会对系统性能造成影响。设置为 true 时，用户需手动注册类，针对未序列化的类，系统不会自动写入类名，而是抛出异常，相对 false，其性能要好。

● 配置 KryoSerializer 作为数据序列化器和类注册器。

val  conf = new SparkConf()
conf.set("spark.serializer", "org.apache.spark.serializer.KryoSerializer")
.set("spark.kryo.registrator", "com.etl.common.DemoRegistrator")

spark序列化相关https://www.jianshu.com/p/8ccd701490cf

spark.kryo.classesToRegister：向Kryo注册自定义的的类型，类名间用逗号分隔

spark.kryo.referenceTracking：跟踪对同一个对象的引用情况，这对发现有循环引用或同一对象有多个副本的情况是很有用的。设置为false可以提高性能

spark.kryo.registrationRequired：是否需要在Kryo登记注册？如果为true，则序列化一个未注册的类时会抛出异常

spark.kryo.registrator：为Kryo设置这个类去注册你自定义的类。最后，如果你不注册需要序列化的自定义类型，Kryo也能工作，不过每一个对象实例的序列化结果都会包含一份完整的类名，这有点浪费空间

spark.kryo.unsafe：如果想更加提升性能，可以使用Kryo unsafe方式

spark.kryoserializer.buffer：每个Executor中的每个core对应着一个序列化buffer。如果你的对象很大，可能需要增大该配置项。其值不能超过spark.kryoserializer.buffer.max

spark.kryoserializer.buffer.max：允许使用序列化buffer的最大值

spark.serializer：序列化时用的类，需要申明为org.apache.spark.serializer.KryoSerializer。这个设置不仅控制各个worker节点之间的混洗数据序列化格式，同时还控制RDD存到磁盘上的序列化格式及广播变量的序列化格式。

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

上一篇：Java string拼接字符串是换行添加什么

下一篇：java 哪个list 里的值不能为null

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯

spark 中的seq

spark 中的seq

51CTO博客