(一)概述
1、ETL
ETL(Extract-Transform-Load的缩写,即数据抽取、转换、装载的过程)
ETL工具:Sqoop,DataX,Kettle,Talend等
2、Kettle介绍
水壶、多数据源(ETL工作集)、Java编写
Kettle(现在已经更名为PDI,Pentaho Data Integration-Pentaho数据集成)。
3、两大概念:作业和转换
两种脚本文件,transformation和job,transformation完成针对数据的基础转换,job则完成整个工作流的控制。
理解:job中包含transform
4、核心组件
5、特点
(二)使用
1、安装文件
hitachi公司
下载地址:https://sourceforge.net/projects/pentaho/files/
2、目录介绍
3、文件介绍
4、快速入门
csv文件转换为xls格式
5、核心概念
(1)可视化编程VPL
可视化编程语言(Visula Programming Languages,VPL)
(2)转换
负责数据的输入、转换、校验和输出等工作
由多个步骤 (Step) 组成,各个步骤使用跳 (Hop) 来链接
(3)步骤
一个输入到多个输出跳
数据的发送可以分为分发和复制
(4)跳(Hop)
带箭头的连线
行集的数据行缓存,类似于MQ的容量
(5)元数据
对每个字段的描述
(6)作业
定义整个工作流的控制
串行的调度工具来执行转换
作者:哥们要飞