PostgreSQL 提供了一种访问和操作外部数据源的机制,称为外部数据包装器(Foreign Data Wrapper)。利用这种外部数据管理机制,我们可以在 PostgreSQL 中访问各种同构数据库(PostgreSQL)、异构数据库(MySQL、Oracle、SQL Server、SQLite、HBase、Cassandra、ClickHouse、CouchDB、MongoDB、Neo4j、Redis、Hadoop、HIve等)以及文本文件(CSV、JSON、XML等)。
本文我们要介绍的就是连接 MySQL 数据库的外部数据包装器:mysql_fdw。mysql_fdw 提供了读写 MySQL 外部表、连接池、WHERE 条件下推、返回字段下推、预编译语句、JOIN 下推、聚合函数(min、max、sum、avg、count)下推、ORDER BY 下推以及 LIMIT OFFSET 下推等功能。
下载安装
点击 GitHub 下载 mysql_fdw 源代码。
编译 mysql_fdw 之前,需要安装 MySQL C 语言客户端库。这个程序库可以从 MySQL 官方网站下载。
对于 POSIX 兼容系统,运行 make 进行编译时需要确保 pg_config 程序位于 path 环境变量中。该程序通常位于 PostgreSQL 安装目录下的 bin 目录中,例如:
$ export PATH=/usr/local/pgsql/bin/:$PATH
另外,mysql_config 程序页需要位于 path 环境变量中:
$ export PATH=/usr/local/mysql/bin/:$PATH
然后,使用 make 命令编译程序:
$ make USE_PGXS=1
最后,安装 mysql_fdw:
$ make USE_PGXS=1 install
运行回归测试:
$ make USE_PGXS=1 installcheck
注意确保 MYSQL_HOST、MYSQL_PORT、MYSQL_USER_NAME 以及 MYSQL_PWD 环境变量的设置。默认设置可以参考 mysql_init.sh 脚本。
使用示例
以下是一个简单的使用示例,所有命令在 PoatgreSQL 中执行:
-- 加载扩展插件
CREATE EXTENSION mysql_fdw;
-- 创建服务器对象
CREATE SERVER mysql_server
FOREIGN DATA WRAPPER mysql_fdw
OPTIONS (host '127.0.0.1', port '3306');
-- 创建用户映射
CREATE USER MAPPING FOR postgres
SERVER mysql_server
OPTIONS (username 'foo', password 'bar');
-- 创建外部表
CREATE FOREIGN TABLE warehouse
(
warehouse_id int,
warehouse_name text,
warehouse_created timestamp
)
SERVER mysql_server
OPTIONS (dbname 'db', table_name 'warehouse');
-- 插入数据
INSERT INTO warehouse values (1, 'UPS', current_date);
INSERT INTO warehouse values (2, 'TV', current_date);
INSERT INTO warehouse values (3, 'Table', current_date);
-- 查询数据
SELECT * FROM warehouse ORDER BY 1;
warehouse_id | warehouse_name | warehouse_created
-------------+----------------+-------------------
1 | UPS | 10-JUL-20 00:00:00
2 | TV | 10-JUL-20 00:00:00
3 | Table | 10-JUL-20 00:00:00
-- 删除数据
DELETE FROM warehouse where warehouse_id = 3;
-- 更新数据
UPDATE warehouse set warehouse_name = 'UPS_NEW' where warehouse_id = 1;
-- 查看执行计划
EXPLAIN VERBOSE SELECT warehouse_id, warehouse_name FROM warehouse WHERE warehouse_name LIKE 'TV' limit 1;
QUERY PLAN
--------------------------------------------------------------------------------------------------------------------
Limit (cost=10.00..11.00 rows=1 width=36)
Output: warehouse_id, warehouse_name
-> Foreign Scan on public.warehouse (cost=10.00..1010.00 rows=1000 width=36)
Output: warehouse_id, warehouse_name
Local server startup cost: 10
Remote query: SELECT `warehouse_id`, `warehouse_name` FROM `db`.`warehouse` WHERE ((`warehouse_name` LIKE BINARY 'TV'))
配置参数
以下参数用于 MySQL 外部服务器对象:
- host:MySQL 服务器的地址或者主机名,默认为 127.0.0.1;
- port:MySQL 服务器的端口,默认为 3306;
- secure_auth:启用或者禁用安全认证,默认为 true;
- init_command:连接 MySQL 服务器之后执行的初始 SQL 语句;
- use_remote_estimate:是否执行远程 EXPLAIN 命令获取成本评估,默认为 false;
- reconnect:启用或者禁用自动重新连接功能,默认为 false;
- sql_mode:设置 MySQL sql_mode 变量,默认为 ANSI_QUOTES;
- ssl_key:客户端私钥文件名;
- ssl_cert:客户端公钥认证文件名;
- ssl_ca:证书授权(CA)认证文件名。如果使用该选项,必须和 MySQL 服务器的证书一致;
- ssl_capath:包含可信 SSL CA 认证文件的目录;
- ssl_cipher:SSL 加密允许的密码列表;
- fetch_size:指定每次读取的数据行数。该参数可以基于外部表或者外部服务器进行指定,基于外部表指定的参数优先级更高。默认为 100;
- character_set:MySQL 连接使用的字符集。默认为 auto,表示基于操作系统设置进行自动配置。在引入该选项之前,字符集设置为 PostgreSQL 数据库字符集. To get this 。如果想要兼容历史配置,可以将 character_set 设置为特殊值 PGDatabaseEncoding。
以下参数用于 MySQL 外部表对象:
- dbname:MySQL 数据库名,这是一个必填项;
- table_name:MySQL 表名,默认与 PostgreSQL 外部表同名;
- max_blob_size:不会被截断读取的最大 blob 大小;
- fetch_size:与外部服务器对象的 fetch_size 参数相同。
以下参数用于创建用户映射:
- username:连接 MySQL 服务器的用户名;
- password:连接 MySQL 服务器的密码。
以下参数用于 IMPORT FOREIGN SCHEMA 命令:
- import_default:导入外部表定义时是否包含字段的 DEFAULT 属性,默认为 false;
- import_not_null:导入外部表定义时是否包含字段的 NOT NULL 约束,默认为 true;
- import_enum_as_text:导入外部表定义时将 MySQL ENUM 类型映射为 PostgreSQL TEXT 类型,或者创建一个新的枚举类型并提示警告,默认为 false;
- import_generated:导入外部表定义时是否包含字段的 GENERATED 表达式,默认为 true。如果生成列表达式中使用了 PostgreSQL 中不存在的函数或者操作符,IMPORT 将会失败。