【实验目的】
1.利用Kettle的“分组”,“JavaScript代码”,“字段选择”组件,实现数据质量统计。
2.熟练掌握“JavaScript代码”,“分组”等组件的使用,实现数据质量统计。

【实验原理】
通过“JavaScript代码”对表格的记录进行质量分类,然后通过“字段选择”生成带质量标志位字段的数据,再通过“分组”统计数据的质量问题。

【实验环境】
操作系统:Windows10 
Kettle版本:7.1.0.0
jdk版本:1.8.0及以上版本

【实验步骤】

一、建立转换

双击spoon.bat打开kettle。(1)点击新建按钮,在下拉菜单中点击选择“转换”即可创建;(2)然后点击“保存”重命名该转换文件,保存在某个指定的路径;(3)选择输入步骤、、数据处理、输出步骤和跳。

kettle access输入 怎么过滤记录 kettle数据_大数据

二、各组件的配置

1.“Excel的输入”的配置

Step1:双击‘Excel输入’组件,配置‘文件’选项卡,设置输入数据的输入流和路径

kettle access输入 怎么过滤记录 kettle数据_大数据_02

Step2:配置‘工作表’选项卡,设置输入数据的起始行和起始列

kettle access输入 怎么过滤记录 kettle数据_选项卡_03

Step3:配置‘字段’选项卡,获取字段名称,并设置字段的数据类型(重点,以防报错)

kettle access输入 怎么过滤记录 kettle数据_选项卡_04

2.“JavaScript代码”的配置:

双击“JavaScript代码”组件,编写代码设置并判断课程名称和课时数是否为空,这两个字段用以检测输入数据的数据质量。

kettle access输入 怎么过滤记录 kettle数据_选项卡_05

3.“字段选择”的配置:

双击‘字段选择’组件,配置‘选择和修改’选项卡,获取后续步骤选择的字段

kettle access输入 怎么过滤记录 kettle数据_选项卡_06

4.“Microsoft Excel 中间标志数据输出”配置

Step1:配置‘文件&工作表’选项卡,设置输出文件的名称、类型以及路径

kettle access输入 怎么过滤记录 kettle数据_字段_07

Step2:配置‘字段’选项卡,获取字段并设置其类型,设置字段的格式(重点)

kettle access输入 怎么过滤记录 kettle数据_字段_08

5.“分组”配置

双击‘分组’组件,在JavaScript组件的代码里设置的字段进行聚合

kettle access输入 怎么过滤记录 kettle数据_大数据_09

6.“Microsoft Excel 数据质量统计输出”配置

Step1:配置‘文件&工作表’选项卡,设置输出文件的名称、类型以及路径

kettle access输入 怎么过滤记录 kettle数据_大数据_10

Step2:配置‘字段’选项卡,获取字段并设置其类型(多余字段可删除)

kettle access输入 怎么过滤记录 kettle数据_数据_11

三、执行转换

点击按钮,执行转换,结果如下:

kettle access输入 怎么过滤记录 kettle数据_数据_12

四、实验结果:

输入文件‘课程信息表07.xlsx’:

kettle access输入 怎么过滤记录 kettle数据_大数据_13

输出文件‘test6_2.xls’:

kettle access输入 怎么过滤记录 kettle数据_数据_14

输出文件‘test6_22.xls’:

kettle access输入 怎么过滤记录 kettle数据_数据_15

五、实验总结

本次实验的目的主要是通过“JavaScript代码”对表格的记录进行质量分类,并使用“分组”对数据质量进行统计。本次实验过程中,学习到新的思想办法处理数据,且暂未遇到较大的困难。

附 件:

kettle access输入 怎么过滤记录 kettle数据_大数据_16