参考《ETL数据整合与处理》--任务3.2

由于输入或其他错误,数据文件中可能出现两条或多条数据完全相同的记录,这些相同的记录称为重复记录。重复记录属于“脏数据”,会造成数据统计和分析不正确,必须清洗掉重复记录。

由于在“期考成绩.xls”文件中,发现存在序号不同,但是学号、各科考试成绩完全相同的记录,所以需要使用【去除重复记录】控件,去除这些重复的数据。

kettle对mysql数据清洗 kettle如何清洗数据_重定向

双击【排序记录】组件,对“学号”字段按照升序进行排序

kettle对mysql数据清洗 kettle如何清洗数据_默认值_02

kettle对mysql数据清洗 kettle如何清洗数据_重定向_03

 

kettle对mysql数据清洗 kettle如何清洗数据_默认值_04

参数名称

说明


步骤名称

表示去除重复组件名称,在单个转换工程中,名称必须唯一。默认值是【去除重复记录】的组件名称

增加计数器到输出

表示选择此选项时,计数器计算重复记录的条数,并将计数器字段添加至输出流中。选择后才能设置【计数器字段】参数名称。默认值为空

计数器字段

表示对重复记录计数的计数器字段名称,【增加计数器到输出】勾选时才能设置。默认值为空

重定向重复记录

表示选择此选项时,将重复的记录作为错误处理并将其重定向到组件的错误流。如果不选择,重复的记录将被删除。选择后才能编辑【错误描述】内容,内容是指当组件检测到重复记录时显示的错误处理描述。默认值为空

错误描述

表示对出现重复记录现象的内容描述,【重定向重复记录】为√时才能设置。默认值为空

用来比较的字段

表示用来比较是否重复记录的字段,用来比较的字段可以有多个,用一个表来分行设置不同的字段参数,字段参数如下



字段名称:用来比较的字段,默认值为空



忽略大小写:比较字段是否区分大小写,选项有 Y 、 N ,默认值为空

执行结果:

kettle对mysql数据清洗 kettle如何清洗数据_重定向_05

如果勾选了如下两项:

kettle对mysql数据清洗 kettle如何清洗数据_字段_06

kettle对mysql数据清洗 kettle如何清洗数据_重定向_07

 

 

kettle对mysql数据清洗 kettle如何清洗数据_kettle_08