kettle windos mysql 资源库 kettle配置资源库

转载

attitude 2024-01-30 21:20:58

文章标签 大数据 Kettle 资源库 sql 数据库 文章分类 MySQL 数据库

一、资源库

【1】数据库资源库

1、概述

数据库资源库是将作业和转换相关的信息存储在数据库中，执行的时候直接去数据库读取信息，很容易跨平台使用

2、使用

准备操作：在MySQL中创建数据库kettle

1）点击右上角connect，选择Other Resporitory

kettle windos mysql 资源库 kettle配置资源库_Kettle

2) 选择Database Repository

kettle windos mysql 资源库 kettle配置资源库_sql_02

3) 建立新连接，选择我们之前创建的数据库 kettle

kettle windos mysql 资源库 kettle配置资源库_sql_03

4) 填好之后，点击finish，会在指定的库中创建很多表，至此数据库资源库创建完成

kettle windos mysql 资源库 kettle配置资源库_大数据_04

5) 连接资源库，默认账号密码为admin

kettle windos mysql 资源库 kettle配置资源库_资源库_05

6) 将之前做过的转换导入资源库

（1）选择从xml文件导入

kettle windos mysql 资源库 kettle配置资源库_数据库_06

（2）随便选择一个导入即可

kettle windos mysql 资源库 kettle配置资源库_Kettle_07

kettle windos mysql 资源库 kettle配置资源库_大数据_08

7) 此时在C:\Users\你的windows用户名的目录下生成了一个.kettle文件夹，里面包含了一些Kettle资源库的配置信息

【2】文件资源库

将作业和转换相关的信息存储在指定的目录中，其实和XML的方式一样
创建方式跟创建数据库资源库步骤类似，只是不需要用户密码就可以访问，跨
平台使用比较麻烦

1)选择connect

kettle windos mysql 资源库 kettle配置资源库_sql_09

2)点击add后点击Other Repositories

kettle windos mysql 资源库 kettle配置资源库_资源库_10

3)选择File Repository

kettle windos mysql 资源库 kettle配置资源库_资源库_11

4)填写信息

kettle windos mysql 资源库 kettle配置资源库_资源库_12

二、Kettle在Linux下的使用

前提：因为Kettle是纯Java编写，所以依赖JDK环境，使用前必须安装JDK

1）安装包上传到服务器，解压

注意：

1.把mysql驱动拷贝到lib目录下
2.将Windows本地用户家目录下的隐藏目录C:\Users\你的windows用户名\.kettle文件夹上传到linux的用户家目录下，我的是/home/zsy/下

2）运行数据库资源库中的转换：

./pan.sh -rep=resources -user=admin -pass=admin -trans=mysql2file -dir=/

参数说明：
-rep         资源库名称
-user        资源库用户名
-pass        资源库密码
-trans       要启动的转换名称
-dir         目录(不要忘了前缀 /)

kettle windos mysql 资源库 kettle配置资源库_数据库_13

4）运行资源库里的作业：

记得把作业里的转换变成资源库中的资源
./kitchen.sh -rep=resources -user=admin -pass=admin -job=jobDemo1 -logfile=./logs/log.txt -dir=/
参数说明：
-rep - 资源库名
-user - 资源库用户名
-pass – 资源库密码
-job – job名
-dir – job路径
-logfile – 日志目录

三、调优

1、调整JVM大小进行性能优化，修改Kettle根目录下的Spoon脚本
参数参考：

-Xmx1024m：设置JVM最大可用内存为1024M
-Xms512m：设置JVM促使内存为512m。此值可以设置与-Xmx相同，以避免每次垃圾回收完成后JVM重新分配内存
-Xmn2g：设置年轻代大小为2G。整个JVM内存大小=年轻代大小 + 年老代大小 + 持久代大小。持久代一般固定大小为64m，所以增大年轻代后，将会减小年老代大小。此值对系统性能影响较大，Sun官方推荐配置为整个堆的3/8
-Xss128k：设置每个线程的堆栈大小。JDK5.0以后每个线程堆栈大小为1M，以前每个线程堆栈大小为256K。更具应用的线程所需内存大小进行调整。在相同物理内存下，减小这个值能生成更多的线程。但是操作系统对一个进程内的线程数还是有限制的，不能无限生成，经验值在3000~5000左右

2、调整提交（Commit）记录数大小进行优化，Kettle默认Commit数量为：1000，可以根据数据量大小来设置Commitsize：1000~50000

3、尽量使用数据库连接池

4、尽量提高批处理的commit size

5、尽量使用缓存，缓存尽量大一些（主要是文本文件和数据流）

6、Kettle是Java做的，尽量用大一点的内存参数启动Kettle

7、可以使用sql来做的一些操作尽量用sql ；Group , merge , stream lookup,split field这些操作都是比较慢的，想办法避免他们.，能用sql就用sql

8、插入大量数据的时候尽量把索引删掉

9、尽量避免使用update , delete操作，尤其是update,如果可以把update变成先delete, 后insert

10、能使用truncate table的时候，就不要使用deleteall row这种类似sql合理的分区，如果删除操作是基于某一个分区的，就不要使用delete row这种方式（不管是deletesql还是delete步骤）,直接把分区drop掉，再重新创建

11、尽量缩小输入的数据集的大小（增量更新也是为了这个目的）

12、尽量使用数据库原生的方式装载文本文件(Oracle的sqlloader, mysql的bulk loader步骤)

13、尽量不要用kettle的calculate计算步骤，能用数据库本身的sql就用sql ,不能用sql就尽量想办法用procedure,实在不行才是calculate步骤