在使用ETL工具Kettle时候,为了使作业或转换具有通用性,有时候,我们需要将数据库的连接配置从脚本或转换中抽离出来,下面介绍一种方案,该方案主要涉及的文件有:

# 这两个文件,默认是在系统的用户目录下,如果配置了KETTLE_HOME环境变量,则spoon会去KETTLE_HOME的目录下加载这两个文件

/.kettle/kettle.properties
/.kettle/shared.xml

共享数据库配置

在作业中,按照DB连接向导建立一个数据库连接,填入完整的数据库连接信息。

kettle把mysql数据到sqls kettle数据库连接配置_数据库连接

kettle把mysql数据到sqls kettle数据库连接配置_kettle把mysql数据到sqls_02

建立完连接,测试连接成功后,在该DB连接上点右键,选择“共享”。

kettle把mysql数据到sqls kettle数据库连接配置_数据库_03

完成上述共享操作后,就可以在以下文件中找到共享数据库链接的配置:

/.kettle/shared.xml
test_db
127.0.0.1
MYSQL
Native
test_db
3306
testdb
Encrypted 2be98afc86aa7f2e4cb79ff228dc6fa8c
PORT_NUMBER3306

这样设置后,你就可以在后续的作业和转换中选择这个共享的test_db。

虽然这样算是抽离出了DB连接,但是还不够优化,下面介绍如何将DB连接中的部分配置再次抽离出来。

抽离DB配置

例如,我们想将数据库的地址、SID、username、password从shared.xml中抽离出来,这个时候,就需要用到

/.kettle/kettle.properties

我们只需要在这个文件中定义相关的DB变量,如下:

test_db_host=127.0.0.1
test_db_port=3306
test_db_sid=test_db
test_db_user=test_db
test_db_password=Encrypted 2be98afc86aa7f2e4cb79ff228dc6fa8c

然后,我们修改

/.kettle/shared.xml
test_db
${test_db_host}
MYSQL
Native
${test_db_sid}
${test_db_port}
${test_db_user}
${test_db_password}
PORT_NUMBER${test_db_port}

这样,就彻底的将数据库的配置从作业和转换中抽离出来了。

注意的一点是,最好在shared.xml中增加如下的数据库连接属性,可以有效避免数据传输字符、日期转换问题

test_db
${test_db_host}
MYSQL
Native
${test_db_sid}
${test_db_port}
${test_db_user}
${test_db_password}
EXTRA_OPTION_MYSQL.characterEncoding
utf8
FORCE_IDENTIFIERS_TO_LOWERCASE
N
FORCE_IDENTIFIERS_TO_UPPERCASE
N
IS_CLUSTERED
N
PORT_NUMBER
${test_db_port}
PRESERVE_RESERVED_WORD_CASE
Y
QUOTE_ALL_FIELDS
N
SQL_CONNECT
set names utf8
STREAM_RESULTS
Y
SUPPORTS_BOOLEAN_DATA_TYPE
Y
SUPPORTS_TIMESTAMP_DATA_TYPE
Y
USE_POOLING
N

做完上述的DB连接的共享和配置后,再处理作业和转换时,如果选择共享的DB连接,实际上Kettle会复制shared.xml中的数据库配置到具体的作业和转换中,复制过去后,相应的变量会从kettle.properties中读取。

也就是说,如果要把作业和转换发布到正式环境,实际上可以不需要shared.xml,shared.xml更多的作用是用于开发阶段。

另外,注意每次修改了shared和kettle.properties,要重启Kettle的开发工具,否则可能无法正常生效。