flink 类不能序列化 flink的序列化

转载

mob64ca140b0bc8 2024-04-17 14:20:49

一、DataStream类型系统

flink 类不能序列化 flink的序列化_flink

flink 类不能序列化 flink的序列化_Flink内核原理与实现_02

1、类型提取的时机

#DataStream.java

flink 类不能序列化 flink的序列化_序列化_03

在使用DataStream#map接口的时候，就会触发类型的提取。

2、自动类型推断

Flink首先会自动进行类型推断，但是对于一些带有泛型的类型，Java泛型的类型擦除机制会导致Flink在处理Lambda表达式的类型推断时不能保证一定能提取到类型。

Java泛型(Generic) 的引入加强了参数类型的安全性，减少了类型的转换，但有一点需要注意：Java的泛型机制是在编译级别实现的。编译器生成的字节码在运行期间并不包含泛型的类型信息。

此时就需要为Flink的应用提供类型信息，使用TypeHint的匿名类来获取泛型的类型信息。

TypeExtractor.getMapReturnTypes(function, (TypeInformation) TypeInformation.of(new TypeHint<Tuple3<String, String, String>>(){}));

上述代码使用匿名内部类来获取泛型信息，其中new TypeHint<Tuple3<String, String, String>>(){} 就是用来在类型擦除的情况下来获取泛型信息的。

3、Lambda函数的类型提取

Flink 类型提取依赖于继承等机制，但Lambda函数比较特殊，其类型提取是匿名的，也没有与之相关的类，所以其类型信息较难获取。

1）Java类型擦除的原因

a：避免JVM的重构。如果JVM将泛型类型延续到运行期，那么到运行期时JVM就需要进行大量的重构工作。

b：版本兼容。在编译期擦除可以更好地支持原生类型(Raw Type)。

2）Java泛型类型擦除规则

a：如果是继承基类而来的泛型，就用getGenericSuperclass()，转型为ParameterizedType来获得实际类型。

b：如果是实现接口而来的泛型，就用getGenericSuperclass()，针对其中的元素转型为ParameterizedType来获得实际类型。

c：Java泛型在字节码中会被擦除，并不总是擦除为Object类型，而是擦除到上限类型。

Flink 提供了两层简化的类型使用方式：

BasicTypeInfo这个类定义了基本类型的TypeInformation的快捷声明，如String、Boolean、Byte、Short\Integer、Long、Float、Double、Char等。

Types类(org.apache.flink.api.common.typeinfo.Types)

flink 类不能序列化 flink的序列化_序列化_04

在目前版本的Flink存在两套Row结构：

org.apache.flink.types.Row：在Flink Planner中使用，是1.9版本之前Flink SQL使用的Row结构，在SQL相关的算子、UDF函数、代码生成中都是使用该套Row结构。
org.apache.flink.table.dataformat.BaseRow及其子类：是在Blink Runtime和Blink Planner中使用的新的Row类型数据结构，在Blink算子、UDF函数和代码生成中使用此结构。

flink 类不能序列化 flink的序列化_序列化_05

Blink 中的行式存储结构

BinaryRow：表数据的二进制行式存储，分为定长部分和不定长部分，定长部分只能在一个MemorySegment内。
NestedRow：与BinaryRow的内存结构一样，区别在于NestedRow的定长部分可以跨MemorySegment。
UpdatableRow：该类型的Row比较特别，其保存了该行所有字段的数据，更新字段数据的时候不修改原始数据，而是使用一个数组记录被修改字段的最新值。读取数据的时候，首先判断数据是否被更新过，如果更新过则读取最新值，如果没有则读取原始值。
ObjectArrayRow：使用对象数据保存数据，比二进制结构存储形式多了对象的序列化/反序列化，理论上来说成本更高。其中两个实现类GenericRow和BoxedWrapperRow。GenericRow中存储的数据类型是原始类型(如int等)，BoxedWrapperRow中存储的数据类型是可序列化和可比较大小的对象类型。
JoinedRow：表示Join或者关联运算中的两行数据的逻辑结构，如Row1、Row2，两行数据并没有进行物理上的合并，物理合并成本高。但是从使用者的角度来说，看起来就是一行数据，无须关注底层。
ColumnarRow：是一种内存列式存储结构，每一列的抽象结构为ColumnVector。在当前的实现中，只支持堆上ColumnVector，对外的ColumnVector尚不被支持。堆上ColumnVector本质上是使用Java原始类型数据保存一列的数据。Orc类型的列式存储使用了ColumnarRow。

为了提升Flink SQL的性能，在1.9版本实现了BinaryRow,BinaryRow直接使用MemorySegment来存储和计算，计算过程中直接对二进制数据结构进行操作，避免了序列化/反序列化的开销。

BinaryRow 存储结构中包含两个部分：定长部分和变长部分。