(一)概述

1、ETL

ETL(Extract-Transform-Load的缩写,即数据抽取、转换、装载的过程)

ETL工具:Sqoop,DataX,Kettle,Talend等

2、Kettle介绍

水壶、多数据源(ETL工作集)、Java编写

Kettle(现在已经更名为PDI,Pentaho Data Integration-Pentaho数据集成)。

3、两大概念:作业和转换

两种脚本文件,transformation和job,transformation完成针对数据的基础转换,job则完成整个工作流的控制。

Kettle基础及快速入门_数据

理解:job中包含transform

4、核心组件

Kettle基础及快速入门_数据_02

5、特点

Kettle基础及快速入门_元数据_03

(二)使用

1、安装文件

hitachi公司

下载地址:​​https://sourceforge.net/projects/pentaho/files/​

2、目录介绍

Kettle基础及快速入门_可视化编程_04

3、文件介绍

Kettle基础及快速入门_可视化编程_05

4、快速入门

csv文件转换为xls格式

5、核心概念

(1)可视化编程VPL

可视化编程语言(Visula Programming Languages,VPL)

(2)转换

负责数据的输入、转换、校验和输出等工作

由多个步骤 (Step) 组成,各个步骤使用跳 (Hop) 来链接

(3)步骤

一个输入到多个输出跳

数据的发送可以分为分发和复制

(4)跳(Hop)

带箭头的连线

行集的数据行缓存,类似于MQ的容量

(5)元数据

对每个字段的描述

Kettle基础及快速入门_元数据_06

(6)作业

定义整个工作流的控制

串行的调度工具来执行转换

作者:​​哥们要飞​​​