大数据工具kettle

负责进行数据的ETL,和脚本的任务定时调度。

1 ETL解释

1.1 E:extract 抽取数据

文件中:
txt文件的内容读取
输入–文本文件输入:
1.浏览txt文件
2.点击增加这个文件
3.修改文件的分隔符
4.可能还需要修改文件的编码格式
5.获取文件的字段,有可能需要修改字段的类型和长度以及精度
6.预览自己的这一次操作看是否能够成功的读取文件的内容

csv文件的内容读取
输入–CSV文件的输入
1.浏览csv文件
2.点击获取字段,可以修改字段的长度精度和类型
3.预览一下

excel文件的内容读取
输入–EXCEL输入
1.浏览一个excel文件
2.增加这个文件
3.选择一个sheet标签页
4.获取头部字段,可以修改字段的长度精度和类型
5.预览一下

xml文件的内容读取:一种半结构化的数据的存储格式
1.浏览一个xml文件
2.增加这个文件
3.填写循环读取的路径,使用和linux相同的路径格式来填写
4.xml文件的读取,标签一定需要有父子级关系

json文件的内容读取
INPUT–json input
1.浏览一个json格式的文件
2.将文件增加到当前的控件中
3.定义数据的名称、路径、类型、长度和精度
因为json是一个键值对格式,通过 .关键字,就可以获取到这个关键字对应的值

网络中:接口API的数据

1.2 T:transform 转换数据

转换菜单中的组件:
排序记录
去除重复记录
字符串替换
字符串操作
字段选择
拆分字段
合并字段
列转行

应用菜单中的组件:
替换NULL值

流程菜单中的组件:
过滤记录

统计菜单中的组件:
分组

1.3 L:load 加载数据

将数据保存到数据库表格里面
输出–表输出
1.新建一个数据库的链接:填写连接名、数据库服务器的ip地址、数据库名字、端口号、用户名、密码,点击测试,查看链接是否成功
2.输入一个目标表的名字
3.如果这个表不存在,那么点击SQL按钮,让kettle帮你自动的创建这个表格
4.勾选指定数据库字段
5.如果有清空表格的需求,那么可以勾选裁剪表,这个选项就是 truncate table的意思
6.点击数据库字段页面,点击获取字段,并且确定

2 在linux中运行写好的kettle脚本:

2.1 需要一个解压rar的软件

tar -zxf rarlinux-x64-5.7.1.tar.gz
cd rar
make
cd /home
rar x kettle.rar

2.2 进入到/home/kettle/pdi-ce-7.1.0.0-12/data-integration目录中

2.3 给pdi文件夹赋予满权限

chmod -R 777 /home/kettle/pdi-ce-7.1.0.0-12

2.4 使用命令来运行当前的脚本文件

./pan.sh -file ktr脚本的名字和位置 -logfile 日志文件保存的位置 -level Detailed