常用转换步骤

属于ETL中的T,属于清洗操作,是ETL过程中最重要的步骤,一般占据整个ETL过程的三分之二以上。

Concat Fields

Concat Fields就是多个字段连接在一起形成一个新的字段。

kettle pgsql转移到mysql kettle数据转换_大数据

kettle pgsql转移到mysql kettle数据转换_字符串_02

值映射

将字段里的某个值映射成其他的值

kettle pgsql转移到mysql kettle数据转换_数据_03

增加常量

就是在本身的数据流中增加一列数据,且这列数据的值都相同。

kettle pgsql转移到mysql kettle数据转换_数据_04

增加序列

增加序列就是给数据流添加一个序列字段。

kettle pgsql转移到mysql kettle数据转换_数据_05


kettle pgsql转移到mysql kettle数据转换_数据_06

字段选择

选择包括对字段的更名与是否舍弃字段。

kettle pgsql转移到mysql kettle数据转换_数据_07


kettle pgsql转移到mysql kettle数据转换_字符串_08

kettle pgsql转移到mysql kettle数据转换_数据_09

计算器

是一个函数集合,还可以设置字段是否移除与是否添加临时字段。

kettle pgsql转移到mysql kettle数据转换_数据_10

剪切字符串

剪切字符串是指定输入流字段剪切的位置剪切出新的字段

kettle pgsql转移到mysql kettle数据转换_字段_11

字符串替换

字符串替换是指定搜索内容和替换内容,如果输入流的字段匹配上搜索内容就进行替换生产新的字段

kettle pgsql转移到mysql kettle数据转换_大数据_12

字符串操作

字符串操作时去除字符串两端的空格和大小写切换,并生成新的字段

kettle pgsql转移到mysql kettle数据转换_数据_13

排序记录

是按照指定字段的升序或降序排序

kettle pgsql转移到mysql kettle数据转换_字段_14

去除重复记录

去除重复记录是去除数据流里相同的数据行(前提是排序记录)

kettle pgsql转移到mysql kettle数据转换_字段_15

唯一行(哈希值)

唯一行(哈希值)就是删除数据流重复的行。(与排序+去除重复行效果一样,原理是通过hash来删除重复记录。)

唯一行(哈希值)效率高一点。

kettle pgsql转移到mysql kettle数据转换_数据_16

拆分字段

按照分隔符将一个字段拆分成两个或多个字段。

拆分字段后,原字段就不存在在数据流中了。

kettle pgsql转移到mysql kettle数据转换_字段_17

列拆分为多行

就是把指定分隔符的字段拆分成多行。

kettle pgsql转移到mysql kettle数据转换_大数据_18

列转行

列转行就是如果数据一列有相同的值,按照指定的字段,把多行数据转换为一行数据。去除一些原有的列名,把一列数据变为字段。

kettle pgsql转移到mysql kettle数据转换_字段_19

行转列

列转行的逆操作

kettle pgsql转移到mysql kettle数据转换_数据_20

行扁平化

把同一组的多行数据合并成一行

只有数据流的同类数据数据行记录一致的情况才可使用

数据流必须进行排序,否则结果会不正确

kettle pgsql转移到mysql kettle数据转换_数据_21