ETL之Kettle学习笔记——初始Kettle

ETL介绍

ETL即Extract-Transform-Load的缩写,意为数据抽取、转换和装载,ETL是数据仓库的核心和灵魂,是负责完成数据从源数据向目标数据仓库转化的过程,是实施数据仓库的重要步骤。说得直白一点就是数据清洗和装载的一个过程。

ETL是数据抽取(Extract)、清洗(Cleaning)、转换(Transform)、装载(Load)的过程。它是构建数据仓库的重要一环,用户从数据源抽取出所需的数据,经过清洗,最终按照预先定义好的数据仓库模型,将数据装载到数据仓库中去。

Kettle介绍

ETL是数据抽取、转换、装载的过程,那么Kettle就是操作这个ETL过程的工具。

Kettle是一款国外免费开源的、可视化的、功能强大的ETL工具,纯Java编写,可在Windows、Linux、Unix上运行,绿色无需安装,数据抽取高效稳定。它允许你管理来自不同数据库的数据和各种文件格式(txt、excel等)的抽取。

现在Kettle已加入了开源的BI组织Pentaho,正式命名为Pentaho Data Integeration(PDI)。

Kettle拥有两种脚本,transformation和job,transformation完成针对数据的基础转换,job则完成整个工作流的控制。

Kettle家族四大工具

etl构建数据仓库经验 数据仓库etl流程_etl构建数据仓库经验

  • Spoon–转换(transformation)设计工具,一个图形化的工具,它使一个ETTL过程转换的设计易于创建。它执行典型的数据流功能,如读取,验证,优化,转换,将数据写入各种不同的数据源和目标。Spoon中设计的转换(transformations)可以与Pan和Kitchen一起运行,转换(transformation)是通过Pan工具运行,任务(Job)是通过Kitchen运行。
  • Pan–转换(transformation)执行器(命令行模式),是专用于运行Spoon设计的数据转换的应用程序,例如:从不同的数据源读取、操作和写入数据。
  • Chef–工作(job)设计工具,一种用于创建作业的工具,可以以复杂的方式自动执行数据库更新过程。
  • Kitchen–工作(job)执行器(命令行模式),是一个应用程序,可帮助你以批处理方式执行Job,通常使用时间表来简化启动和控制ETL处理的过程。
    在Kettle加入Pentaho组织后,Pentaho Data Integration加了一个组件
  • Carte–Web服务器,允许通过Web浏览器远程监视正在运行的Pentaho Data Integration ETL流程。

Kettle的安装

  • 下载
  • 安装
    解压即可
  • 启动
    点击spoon.bat即可启动
    注:若出现闪退或没有反应,可能是由于jdk版本问题,我的jdk是1.8版本,没有问题
  • 启动页面

etl构建数据仓库经验 数据仓库etl流程_数据_02

  • 启动成功

etl构建数据仓库经验 数据仓库etl流程_etl构建数据仓库经验_03