实验一:数据清洗基础—Kettle 数据转换与清洗、数据抽取操作
1 实验题目:Kettle 数据转换与清洗、数据抽取操作
2实验目和要求
2.1熟悉 Kettle 的开发环境,并掌握 Kettle 环境的配置与安装;
2.2能使用 Kettle 工具进行简单的数据转换与清洗操作
2.3能进行简单的与Web 抽取有关的操作
3实验步骤
1)安装 Kettle 开发工具
2)Kettle 数据转换与清洗
3)Web 数据抽取
4)撰写实验报告
- 实验内容
一、Kettle 开发环境及安装
1、电脑配及系统要置求
配置:内存4G或者以上
系统:64 位,win7 或以上(Linux/mac OS 亦可)
2、Ketlle介绍
Kettle 最早是一个开源的 ETL 工具, 全称为 KDE Extraction, Transportation, Transformation and Loading Environment。在 2006 年,Pentaho 公司收购了 Kettle 项目,从此, Kettle 成为企业级数据集成及商业智能套件 Pentaho 的主要组成部分。
Pentaho Data Integration 以Java 开发,支持跨平台运行,其特性包括:支持 100%无编码、拖拽方式开发 ETL 数据管道;可对接包括传统数据库、文件、大数据平台、接口、流数据等数据源;支持ETL 数据管道加入机器学习算法。
Pentaho Data Integration 作为一个端对端的数据集成平台,可以对多种数据源进行抽取(Extraction)、加载(Loading)、数据落湖(Data Lake Injection)、对数据进行各种清洗、转换、混合,并支持多维联机分析处理(OLAP)和数据挖掘。
二、数据转换与清洗
1、使用Kettle读取XML文档
- 准备XML文档
- 启动Kettle,新建“转换”,在“输入”列表中选择Get data from XML
- 将XML文档添加至Get data from XML对象中,并设置“内容”、“字段”等选项卡
这是XML文件的内容:
文件的读取:
内容设置:
字段设置:
- 单击“预览”,查看结果。
2、将XML文档转换为JSON文档
1)新建“转换”,在“输入”列表中选择Get data from XML,在“输出”列表中选择JSON output,并建立连接
2)将XML文档添加至Get data from XML对象中,并设置“内容”、“字段”等选项卡
3)双击JSON output,设置“一般”、“字段”选项卡
4)在生成的JSON文件中查看结果
3、将EXCEL文档转换为XML文档
1)准备Excel文档
2)新建“转换”,在“输入”列表中选择Excel输入,在“输出”列表中选择XML output,并建立连接
3)双击“Excel输入”添加文件,并设置“工作表”、“字段”等选项卡
4)双击XMLoutput,设置文件的名称和路径、“字段”选项卡
文件获取:
内容设置:
字段设置:
5)保存文件并运行
运行结果:
生成的文件: