ETL

  1. ETL是将业务系统的数据经过抽取、清洗转换之后加载到数据仓库的过程,目的是将企业中的分散、零乱、标准不统一的数据整合到一起,为企业的决策提供分析依据
  2. ETL的设计分三部分:数据抽取、数据的清洗转换、数据的加载。
  3. ETL工具:Kettle spoon

Kettle spoon

1. 转换:将数据流经过一系列操作传输到目标数据源

  1. 转换的创建:

新建一个转换

1新建空白转换

文件—>新建—>转换 :新建一个空白的转换,ctrl+s保存该转换,命名为标准表的表名;

2添加数据库连接

kettlespoon 设置常量 kettle spoon教程_数据库连接

在主对象树中,双击DB连接,或右击DB连接,选择新建数据库连接,打开数据库连接对话框:

kettlespoon 设置常量 kettle spoon教程_kettlespoon 设置常量_02

其中Oracle数据库连接中的数据表空间,索引表空间两项不需要填。其余参数必填,填好之后点测试,检测是否能正确连接,连接成功后,点确认,便保存了当前连接。

其实,可以随时在需要的时候建立数据库连接,而不必刚开始就添加。

3添加需要的step

kettlespoon 设置常量 kettle spoon教程_数据库连接_03

在核心对象的各个分组中,找到需要的step,双击,或者拖拽到右侧设计界面,即可添加step到当前转换中。

  1. 转换的使用
    点开左侧栏的输入,找到表输入,并用鼠标把表输入拖向右边空白区域。

kettlespoon 设置常量 kettle spoon教程_spoon_04

双击拖进来的表输入,编辑表输入里面的信息。

kettlespoon 设置常量 kettle spoon教程_spoon_05

点开左侧栏的输出,找到插入/更新,并用鼠标把插入/更新拖向右边空白区域。

kettlespoon 设置常量 kettle spoon教程_数据库连接_06

摁住shift键不放,鼠标点击表输入,然后拖向旁边的插入/更新,这样就把两个动作连接起来了。

kettlespoon 设置常量 kettle spoon教程_数据_07

双击插入/更新,编辑插入/更新里面的信息。最后把该转换保存,这里保存成test.ktr。

kettlespoon 设置常量 kettle spoon教程_数据_08

3.点击运行就可以转换了

kettlespoon 设置常量 kettle spoon教程_kettlespoon 设置常量_09

kettlespoon 设置常量 kettle spoon教程_spoon_10

2. 作业:


3.Kettle作业与转换如何配合使用:

1、一个作业相当于一个主要任务项,在这个主线中可以调用其它若干个转换,每个转换中可以从作业这个主线中获取数据,然后将数据进行相应的处理操作,再将数据传递给作业主线,也可以在转换中单独获取数据------处理数据------输出数据;

2、并且如果对于需要设置变量的情况下,一般也是需要用到作业与转换的配合使用,因为变量在当前线中设置,不能再当前线中获取,需要到下一个线中才能够获取;

3、一个任务只能够有一个主作业,但是可以有多个子作业,主作业中可以调用转换,也可以调用子作业,具体是调用转换还是调用子作业,需要根据不同的需求,进行不同的定制;

PS:更加详细的描述