前言:

今天刚好第十一天,从今天开始我们讲5节关于EXCEL的操作,昨天讲了EXCEL表的计算,今天将在计算之前,需要EXCEL表去重再去计算,避免重复数据影响我们的决策。在这就需要用到两个组件,分别是去除重复记录+排序记录。这两个组件的语法也特别简单就不详细介绍了,就在下文案例中穿插讲述。

一、去除重复记录

去除重复记录,就是将数据流中的数据进行字段比较,从而去掉重复值的过程。去除重复记录的前提是需要将数据流中的数据进行排序,然后再进行去重操作。

kettle的根据java代码过滤记录中选择多个词过滤怎么操作 kettle过滤记录功能_大小写敏感

去除重复记录的逻辑是,如下图,我们将需要比较的字段作为比较值来比较是否重复。如果我们按数据库的角度去理解的话,其实就是联合主键,需保证联合主键的唯一性。

kettle的根据java代码过滤记录中选择多个词过滤怎么操作 kettle过滤记录功能_大小写敏感_02

排序是我们将指定的字段进行升序或者降序操作。

kettle的根据java代码过滤记录中选择多个词过滤怎么操作 kettle过滤记录功能_大小写敏感_03

二、实例

任务:我们将EXCEL表的数据去掉重复记录并输出。根据上面我们学到的知识,最后的作业由EXCEL输入-排序记录-去除重复记录-EXCEL输出组成。

EXCEL输入:如图所示我们EXCEL表里面一共有7条记录,这里面需要注意的是,我们在去除重复记录的时候,是不是大小写敏感,如果我们大小写敏感的话,那我们如图所示,我们是没有重复记录的,因此我们在去除重复记录的时候要根据需求来选择是否大小写敏感来过滤我们的数据,从而达到我们去除重复的目的。

kettle的根据java代码过滤记录中选择多个词过滤怎么操作 kettle过滤记录功能_字段_04

最终运行效果,最终我们可以看到,因为我们选择了大小写不敏感,最后输出至EXCEL表中只有了6条记录,这就是今天所学的知识,虽然简单,但是要完全弄清楚还得用点心哦,去除重复记录还有个操作叫哈希值,明天我们来介绍哈希值的操作,来看看他们两个有什么原理上的不同。