目录

一.数据去重     

二.完全去重

        1.打开kettle工具新建转换

        2.配置"csv文件输入"控件

        3.配置"唯一行(哈希值)"控件

        4.保存运行

三.缺失值填充

        1.建立以下控件

        2.配置文件输入控件

        3.配置"过滤记录控件"

        4.配置"替换NULL值控件"

        5.配置"合并记录"控件

        6.配置"替换NULL值2"控件

        7.配置"字段选择"控件

        8.保存运行


一.数据去重     

         数据去重又称重复数据的删除,通常指的是找出数据文件集合中重复的数据并将其除,只保存唯一的数据单元,从而消除冗余数据。通常,数据去重方法分为两种,分别是完全去重和不完全去重。
        完全去重指的是消除完全重复的数据,这里提到的完全重复数据指的是数据表记录字段值完全一样的数据。

二.完全去重

        1.打开kettle工具新建转换

        

kettle java脚本过滤 kettle过滤记录组件_控件

        2.配置"csv文件输入"控件

         (1)点击浏览添加去重的文件

         (2)选择包含列头行(注:如果选择简易转换可能会导致去重失败)

              

kettle java脚本过滤 kettle过滤记录组件_kettle java脚本过滤_02

            

           (3)点击下方获取字段,自动检索csv文件,并对字段类型等自动进行分析

              

kettle java脚本过滤 kettle过滤记录组件_etl_03

                     

            (4)点击确定

        3.配置"唯一行(哈希值)"控件

           (1)点击下方获取,自动获取字段

              

kettle java脚本过滤 kettle过滤记录组件_字段_04

              

kettle java脚本过滤 kettle过滤记录组件_字段_05

         (2)点击确定

        4.保存运行

           结果展示:

              

kettle java脚本过滤 kettle过滤记录组件_kettle java脚本过滤_06

三.缺失值填充

        1.建立以下控件

              

kettle java脚本过滤 kettle过滤记录组件_数据_07

        2.配置文件输入控件

            (1)点击进入控件,浏览要处理的文件并点击增加

     

kettle java脚本过滤 kettle过滤记录组件_控件_08

            (2)浏览处理记录查看缺失值

             

kettle java脚本过滤 kettle过滤记录组件_字段_09

            (3)点击内容选项进行如下设置

                   删除分隔符中的分号,点击右侧insert TAB添加制表符作为分割符

                

kettle java脚本过滤 kettle过滤记录组件_etl_10

             (4)点击字段选项,获取字段

               

kettle java脚本过滤 kettle过滤记录组件_字段_11

             (5)点击确定

         3.配置"过滤记录控件"

            (1)点击进入控件,添加过滤条件

                  在浏览数据时我们看到,16号的hours_per_week存在缺失值,而workclass为Private,

              所以我们可以将过滤字段设置为workclass,如下图:

                    

kettle java脚本过滤 kettle过滤记录组件_kettle java脚本过滤_12

            (2)将workclass=Private的字段发送给空操作(什么也不做),不等于的发送给空操作

                    (什么也不做)2。

            (3)点击确定

        4.配置"替换NULL值控件"

            在下方字段中添加hours_per_week,值替换为44。

            

kettle java脚本过滤 kettle过滤记录组件_kettle java脚本过滤_13

        5.配置"合并记录"控件

            这一步主要是将新旧记录进行合并

             

kettle java脚本过滤 kettle过滤记录组件_etl_14

        6.配置"替换NULL值2"控件

            

kettle java脚本过滤 kettle过滤记录组件_字段_15

        7.配置"字段选择"控件

            

kettle java脚本过滤 kettle过滤记录组件_etl_16

        8.保存运行

            运行结果:

kettle java脚本过滤 kettle过滤记录组件_etl_17

    

kettle java脚本过滤 kettle过滤记录组件_数据_18