注:‘MySQL批量加载’组件必须在Linux下运行,因为MySQL批量加载时会创建一个命名管道,在Windows下是不支持的,加载工具用的是fifo

【实验目的】
1.利用Kettle的“生成记录”组件,生成批量数据,利用这些数据实现Kettle在mySQL数据数据进行批量加载。
2.熟练掌握“生成记录”,“MySQL 批量加载”,“文本文件输入”等组件的使用,实现Kettle在mySQL数据数据进行批量加载。

【实验原理】
通过“阻塞数据直到步骤都完成”对多张表格的外键进行排序,然后通过“记录集连接”进行多表连接,再通过“字段选择”选择合适的字段输出到表格。

【实验环境】
操作系统:Windows10 
Kettle版本:7.1.0.0
jdk版本:1.8.0及以上版本

【实验步骤】

一、第一个转换建立

双击spoon.bat打开kettle。(1)点击新建按钮,在下拉菜单中点击选择“转换”即可创建;(2)然后点击“保存”重命名该转换文件,保存在某个指定的路径;

在本实验中,我们需要创建2个转换。一个转换用来生成批量数据;另外一个用来加载批量数据。第一个转换如下图所示:

kettle greenplum kettle greenplum 批量加载的用法_数据

二、第一个转换的各组件配置

1.“生成记录”的配置:

双击‘生成记录’组件,设置产生记录的数目以及字段、数据类型、和举例内容

kettle greenplum kettle greenplum 批量加载的用法_kettle greenplum_02

2.“文本文件输出”的配置:

双击“文本文件输出”组件,选择好输出文件的路径和类型

kettle greenplum kettle greenplum 批量加载的用法_字段_03

三、执行转换

点击按钮,执行转换,结果如下:

kettle greenplum kettle greenplum 批量加载的用法_字段_04

四、第一个转换实验结果

输出文件‘file.txt’:

kettle greenplum kettle greenplum 批量加载的用法_数据_05

五、第二个转换建立

如下图所示:

kettle greenplum kettle greenplum 批量加载的用法_大数据_06

六、第二个转换的各组件配置

1.“文本文件输入”的配置:

Step1:配置‘文件’选项卡,输入源文件地址

kettle greenplum kettle greenplum 批量加载的用法_大数据_07

Step2:配置‘content’选项卡,设置输入文件的类型以及各种格式

kettle greenplum kettle greenplum 批量加载的用法_数据_08

Step3:配置‘字段’选项卡,获取文件的字段,并设置数据类型

kettle greenplum kettle greenplum 批量加载的用法_kettle greenplum_09

4.“MySQL批量加载”配置

Step1:建立数据库连接sqlconn,并测试

kettle greenplum kettle greenplum 批量加载的用法_数据_10

Step2:设定好导入表(重点:表一定要提前创建好),配置‘导入字段’选项卡,获取字段并设置其类型(多余的字段可以删除)

kettle greenplum kettle greenplum 批量加载的用法_kettle greenplum_11

七、实验结果:

输入文件‘preview data’:

kettle greenplum kettle greenplum 批量加载的用法_加载_12

输出文件‘bigdata’:

kettle greenplum kettle greenplum 批量加载的用法_大数据_13

八、实验总结

本次实验的目的主要是对MySQL在批量加载数据的便捷性理解并熟练应用。
本次实验过程中,进一步掌握‘MySQL批量加载’组件的使用,同时提高了自身对问题的解决和寻找办法的能力。

附 件:

kettle greenplum kettle greenplum 批量加载的用法_字段_14