本篇基于假设的场景:将 SQL Server 数据库的表迁移到 MySQL 数据库。之前写过一篇从 SQLite 到 MySQL 的,但当时目标数据库的表创建是手写 SQL 语句来创建的。最近在做数据处理操作的时候,需要用不同的数据源来作性能和其他方面的比较,所以做了不少数据的腾挪。数据在不同数据库间迁移的时候,希望用尽量自动化的方式创建数据表。比较过几个工具,最后还是觉得 kettle 是最合适。将 kettle 数据迁移的几个细节记录一下。
数据库 jar 包
我使用的是 kettle 7.1 版,本来是已经下载了 8.2,但感觉 kettle版本越高,启动速度越慢,又重新退回到 7.1。好久没用过 kettle,这次重新捡起来,发现 kettle 竟然连常见的数据库驱动,比如 mysql connector,都没有提供。需要自己下载。
MySQL 和 Sql Server 操的 jar 包都可以在 Maven Repository 中下载:MySql jar 包地址:https://mvnrepository.com/artifact/mysql/mysql-connector-java
Sql Server 数据库操作的 jar 包(JTDS)地址:https://mvnrepository.com/artifact/net.sourceforge.jtds/jtds
下载 jar 包后,放在 kettle 安装包里面的 lib 文件夹中,需要重启 kettle。
如果通过 kettle 迁移数据库,强烈建议不要用 MS Access 数据库。因为 JDBC 没有直接操作 MS Access 的 jar 包,1.7之前只能通过 JDBC-ODBC bridge,但 Java 8 之后,这个Bridge 被 Oracle 公司移除了。
配置与 SQL Server 和 MySQL 的连接
启动 spoon,新建一个转换 (Transformation),在「主对象树」中,选择 「DB连接」节点,右键,新建一个数据库连接向导,连接名称为 sqlserver:
点击 Next 按钮,输入服务器名称,TCP/IP 端口和数据库名称:
点击 Next 进入下一界面,输入用户名和密码。然后点击 测试数据库连接 测试是否能连接成功。
因为我使用的是 SQL Server 2017 Express 版,所以默认的端口不是 1433。如何查看这个端口呢?打开 SQL Server 配置管理器,如果 TCP/IP 没有启用,需要启用 TCP/IP 连接方式。
然后选中 TCP/IP,右键,查看属性,在最后有一个 IPALL,这里就是 Express 版的端口。
用同样的方式建立与 MySQL 数据库的连接。
多表复制向导
通过菜单【工具】> 【向导】> 【复制多表向导】,打开下面的界面。左边选择 sqlserver,右边选择 mysql。
点击 「Next」,选择需要迁移的表:
输入 job Name 和 Directory,然后点击 Finish。
Kettle 生成下面的 job,非常直观:
到这里,基本上,执行运行操作就可以自动创建表,将数据从源数据库复制到目标数据库。但要注意两个问题:
- 目标数据库没有包含源数据表的 primary key 和 foreign key 等信息,需要手工补充
- 注意源数据库和目标数据库的 encoding 是否一致,避免中文乱码
解决第一个问题。双击作业的步骤「创建表[stock_movement_headers]」,显示界面如下:
本步骤执行 SQL 语句来创建表,但没有同时创建 primary key,可以对 SQL 语句进行更改:
对 stock_movement_details 表也用同样的方法设置数据表的 primary key。
第二个问题,为了避免乱码,对源数据库和目标数据库的 encoding。方法是双击 DB连接,切换到选项页面,增加一个命名参数 characterEncoding。
在表输出步骤创建表
一般情况下,Transformation 的表输入和表输出用于传输数据表的数据,但也可以在创建步骤的时候执行创建表的 SQL 语句,方法如下。以我刚刚创建的 Transformation 为例,增加一个表输入:
增加一个表输出步骤,与表输入连接。对表输出步骤设置如下:
其实此时 stock_movement_headers 表并不存在,但可以点击 「SQL」按钮,帮助生成相应的 SQL 语句。当我们点击的时候,弹出界面如下:
对 SQL 语句稍作修改,然后点击执行,即可生成 stock_movement_headers 表。然后再执行 transformation,实现数据的传输。