实现原理
实现读写分离集群的基本思路是:利用备库提供只读服务、无法修改数据的特性,优先将所有操作发送到备库执行,一旦备库执行报错,则发送到主库重新执行。通过备库“试错”这么一个步骤,自然地将只读操作分流到备库执行。并且,备库“试错”由接口层自动完成,对应用透明。读写分离集群不依赖额外的中间件,而是通过数据库接口与数据库之间的密切配合,实 现读、写操作自动分离特性。DM 的 JDBC、DPI、DCI、ODBC、Provider 等接口都可以用来部署读写分离集群。
环境准备
服务器 主库IP:192.168.10.11 dm8数据库 实例名 :RAC1 端口号:5236
服务器 备库IP:192.168.10.11 dm8数据库 实例名 :RAC2 端口号:5236
服务器 备库IP:192.168.10.12 dm8数据库 实例名 :RAC3 端口号:5236
数据库启动服务命令路径/dm8/bin,实例配置文件路径/dm8/data/DAMENG/
主备库分别初始化实例
./dminit path=/dm8/data page_size=16 instance_name=RAC1
./dminit path=/dm8/data page_size=16 instance_name=RAC2
./dminit path=/dm8/data page_size=16 instance_name=RAC3
主库备份
主库创建实例之后,启动数据库并登录
./dmserver /dm8/data/DAMENG/dm.ini
关闭数据库,以dmrman备份数据库
BACKUP DATABASE '/dm8/data/DAMENG/dm.ini' BACKUPSET '/dm8/data/backup';
将备份文件复制到备库对应目录下
scp -r /dm8/data/backup root@192.168.10.11:/dm8/data/backup
scp -r /dm8/data/backup root@192.168.10.12:/dm8/data/backup
备库启动dmrman执行数据库还原
RESTORE DATABASE '/dm8/data/DAMENG/dm.ini' FROM BACKUPSET '/dm8/data/backup';
RECOVER DATABASE '/dm8/data/DAMENG/dm.ini' FROM BACKUPSET '/dm8/data/backup';
RECOVER DATABASE '/dm8/data/DAMENG/dm.ini' UPDATE DB_MAGIC;
配置 dm.ini#主备库实例都需更改下面参数
ALTER_MODE_STATUS = 0 #不允许手工方式修改实例模式/状态/OGUID
ENABLE_OFFLINE_TS = 2 #不允许备库 OFFLINE 表空间
MAL_INI = 1 #打开 MAL 系统
ARCH_INI = 1 #打开归档配置
配置dmmal.ini #主备库配置必须完全一致
MAL_CHECK_INTERVAL = 5 #MAL 链路检测时间间隔
MAL_CONN_FAIL_INTERVAL = 5 #判定 MAL 链路断开的时间
[MAL_INST1]
MAL_INST_NAME = RAC1 #实例名,和 dm.ini 中的 INSTANCE_NAME 一致
MAL_HOST = 192.168.10.11 #MAL 系统监听 TCP 连接的 IP 地址
MAL_PORT = 61141 #MAL 系统监听 TCP 连接的端口
MAL_INST_HOST = 192.168.10.11 #实例的对外服务 IP 地址
MAL_INST_PORT = 5236 #实例的对外服务端口,dm.ini 中的 PORT_NUM 一致
MAL_DW_PORT = 52141 #实例对应的守护进程监听 TCP 连接的端口
MAL_INST_DW_PORT = 33141 #实例监听守护进程 TCP 连接的端口
[MAL_INST2]
MAL_INST_NAME = RAC2
MAL_HOST = 192.168.10.12
MAL_PORT = 61141
MAL_INST_HOST = 192.168.10.12
MAL_INST_PORT = 5236
MAL_DW_PORT = 52141
MAL_INST_DW_PORT = 33141
[MAL_INST3]
MAL_INST_NAME = RAC3
MAL_HOST = 192.168.10.13
MAL_PORT = 61141
MAL_INST_HOST = 192.168.10.13
MAL_INST_PORT = 5236
MAL_DW_PORT = 52141
MAL_INST_DW_PORT = 33141
配置dmarch.ini#主备库归档目标实例名不一致,其他一致
[ARCHIVE_TIMELY1]
ARCH_TYPE = TIMELY #即时归档类型
ARCH_DEST = RAC2 #即时归档目标实例名
[ARCHIVE_TIMELY2]
ARCH_TYPE = TIMELY #即时归档类型
ARCH_DEST = RAC3 #即时归档目标实例名
[ARCHIVE_LOCAL1]
ARCH_TYPE = LOCAL #本地归档类型
ARCH_DEST = /dm8/data/DAMENG/arch #本地归档文件存放路径
ARCH_FILE_SIZE = 128 #单位 Mb,本地单个归档文件最大值
ARCH_SPACE_LIMIT = 500000 #单位 Mb,0 表示无限制,范围 1024~4294967294M
dmwatcher.ini #主备库配置一致
[GRP1]
DW_TYPE = GLOBAL #全局守护类型
DW_MODE = AUTO #自动切换模式
DW_ERROR_TIME = 10 #远程守护进程故障认定时间
INST_RECOVER_TIME = 60 #主库守护进程启动恢复的间隔时间
INST_ERROR_TIME = 10 #本地实例故障认定时间
INST_OGUID = 453332 #守护系统唯一 OGUID 值
INST_INI = /dm8/data/DAMENG/dm.ini #dm.ini配置文件路径
INST_AUTO_RESTART = 1 #打开实例的自动启动功能
INST_STARTUP_CMD = /dm8/bin/dmserver #命令行方式启动
RLOG_SEND_THRESHOLD = 0 #指定主库发送日志到备库的时间阀值,默认关闭
RLOG_APPLY_THRESHOLD = 0 #指定备库重演日志的时间阀值,默认关闭
dmmonitor.ini #生产环境需单独一台服务器配置。
MON_DW_Confirm = 1 #确认监视器模式
MON_LOG_PATH = /dm8/data/log #监视器日志文件存放路径
MON_LOG_INTERVAL = 60 #每隔 60s 定时记录系统信息到日志文件
MON_LOG_FILE_SIZE = 32 #每个日志文件最大 32M
MON_LOG_SPACE_LIMIT = 0 #不限定日志文件总占用空间
[GRP1]
MON_INST_OGUID = 453332 #组 GRP1 的唯一 OGUID 值
#配置为监视器到组 GRP1 的守护进程的连接信息,以―IP:PORT‖的形式配置
#IP 对应 dmmal.ini 中的 MAL_HOST,PORT 对应 dmmal.ini 中的 MAL_DW_PORT
MON_DW_IP = 192.168.10.11:52141
MON_DW_IP = 192.168.10.12:52141
MON_DW_IP = 192.168.10.13:52141
以 Mount 方式启动主备库
./dmserver /dm8/data/DAMENG/dm.ini mount
启动命令行工具 DIsql,登录主库设置 OGUID 值。
sp_set_oguid(453332);
alter database primary;
启动命令行工具 DIsql,登录备库设置 OGUID 值。
sp_set_oguid(453332);
alter database standby;
启动各个主备库上的守护进程
./dmwatcher /dm8/data/DAMENG/dmwatcher.ini
启动监视器
./dmmonitor /dm8/data/DAMENG/dmmonitor.ini
接口说明
DM 多种客户端接口都支持读写分离集群连接设置,详细可参考《DM8 程序员手册》。
碰到问题
刚开始启动监视器出现如下情况,查看守护日志和实例日志都没有发现问题,最后原因是主备没有做备份还原操作导致,重新做下备份还原,启动ok
脑裂是同一个守护进程组中同时出现两个或者多个活动主库,并且这些主库都接收用户
请求,提供完整数据库服务。一旦发生脑裂,将无法保证数据一致性,对数据安全造成严重
后果。
造成脑裂的主要原因有两个:网络不稳定或错误的人工干预。为了避免出现脑裂,我们
建议:
1. 设置 dm.ini 参数 ALTER_MODE_STATUS=0,限制用户进行直接通过 SQL 修改
数据库模式、状态以及 OGUID。
2. 提供稳定、可靠的网络环境。
3. 配置自动切换数据守护时,将确认监视器部署在独立的第三方机器上,不要与某一
个数据库实例部署在一起,避免由于网络问题触发自动故障切换,导致脑裂发生。
4. 通过人工干预,将备库切换为主库之前,一定要确认主库已经发生故障,避免主库
活动情况下,备库强制接管,人为造成脑裂。