常用转换步骤
属于ETL中的T,属于清洗操作,是ETL过程中最重要的步骤,一般占据整个ETL过程的三分之二以上。
Concat Fields
Concat Fields就是多个字段连接在一起形成一个新的字段。
值映射
将字段里的某个值映射成其他的值
增加常量
就是在本身的数据流中增加一列数据,且这列数据的值都相同。
增加序列
增加序列就是给数据流添加一个序列字段。
字段选择
选择包括对字段的更名与是否舍弃字段。
计算器
是一个函数集合,还可以设置字段是否移除与是否添加临时字段。
剪切字符串
剪切字符串是指定输入流字段剪切的位置剪切出新的字段
字符串替换
字符串替换是指定搜索内容和替换内容,如果输入流的字段匹配上搜索内容就进行替换生产新的字段
字符串操作
字符串操作时去除字符串两端的空格和大小写切换,并生成新的字段
排序记录
是按照指定字段的升序或降序排序
去除重复记录
去除重复记录是去除数据流里相同的数据行(前提是排序记录)
唯一行(哈希值)
唯一行(哈希值)就是删除数据流重复的行。(与排序+去除重复行效果一样,原理是通过hash来删除重复记录。)
唯一行(哈希值)效率高一点。
拆分字段
按照分隔符将一个字段拆分成两个或多个字段。
拆分字段后,原字段就不存在在数据流中了。
列拆分为多行
就是把指定分隔符的字段拆分成多行。
列转行
列转行就是如果数据一列有相同的值,按照指定的字段,把多行数据转换为一行数据。去除一些原有的列名,把一列数据变为字段。
行转列
列转行的逆操作
行扁平化
把同一组的多行数据合并成一行
只有数据流的同类数据数据行记录一致的情况才可使用
数据流必须进行排序,否则结果会不正确