mha高可用架构是目前mysql高可用故障转移比较成熟的解决方案。MHA插件复杂监控mysql主节点的健康情况。在主节点宕机后,MHA把binlog通过ssh传到从节点进行重做补齐。并提升其中一个从节点为主节点。如:A>B ,A>C 。A宕机后。B,C补齐日志。并将故障转移后的架构变为B>C。
转移的流程如下:
1、从出现故障的主节点A拉取binlog日志到B、C节点。
2、识别有最近Relay_Master_Log_File,Exec_Master_Log_Pos 更新的slave节点。假设是B
3、应用差异的中继日志(relay log)到其他slave节点。如C
4、提升slave (B)为新的主节点。
5、其他的节点(C)连接到新的主节点。
MHA 切换完了之后并没有其他的操作了。如服务发现,重新注册。但是MHA提供了脚本接口。可以手动指定切换完了MHA执行指定的脚本。如注册虚拟ip到新的主节点。或者调用接口注册新的服务域名。发告警邮件 等。
mha的架构如下
MHA插件分为两部分 Manager工具包和Node工具包:
Manager 插件是管理节点,主要用于监控Mysql主从架构的正常状态。
有以下命令集:
masterha_check_status 检查 masterha_manager状态
masterha_check_ssh 检查ssh是否正常
masterha_check_repl 检查复制链是否正常
masterha_master_monitor
masterha_manager 启动mha管理进程(发现故障时切换)
masterha_conf_host
masterha_master_switch
masterha_stop
master_ip_failover
masterha_switch_domain
master_ip_online_change
masterha_secondary_check
Node 节点在每个mysql实例上存在,供Manager 健康检测,故障转移时调用。
有如下命令集:
apply_diff_relay_logs
filter_mysqlbinlog
purge_relay_logs
save_binary_logs
注意:Node节点如果是编译安装。会在/usr/local/bin 目录下存在以上命令。如果是直接用编译完的二进制包解压安装。必须把Node的4个命令 拷贝到 /usr/local/bin目录下。否则找不到命令。
【MHA的安装】
mha的安装可以到官网下载进行编译安装。
https://code.google.com/p/mysql-master-ha/
为了省事,可以到我已经编译架构好的百度云盘下载:
链接:https://pan.baidu.com/s/11fh_wolEYHg-VhaJDwYglA 密码:3zie
以下介绍安装按照我已经编译好的安装包解压即可:
tar -xcf mha56.tar.gz -C /usr/local
解压之后有以下文件夹:
auth bin conf MHA rpm workdir
rpm目录存在了mha所依赖的所有rpm包。也可以eperl 源yum安装。
yum install perl-DBD-MySQL perl-Config-Tiny perl-Log-Dispatch perl-Parallel-ForkManager perl-Time-HiRes perl-IO-Socket-SSL perl-DBD-MySQL perl-Time-HiRes perl-File-Which perl-Digest-SHA1 perl-Crypt-SSLeay perl-libwww-perl perl-TermReadKey -y
MHA 目录存在了mha整套perl脚本需要
cp -rp MHA /usr/local/share/perl5/
chmod rp 444 /usr/local/share/perl5/MHA
bin 目录存放了Manager 节点和Node节点的所有脚本。Node脚本需要拷贝到/usr/local/bin目录:
cp -rp cp -rp apply_diff_relay_logs filter_mysqlbinlog save_binary_logs purge_relay_logs /usr/local/bin
【配置mha配置文件】
conf 目录存放配置文件的模板
这里只指定两个节点A>B。可以指定3个节点,或更多。
##定义每套cluster端口为[portnum]
## mkdir -p /usr/local/mha56/workdir ; chown mha:mysql /usr/local/mha56/workdir
[server default]
client_bindir=/usr/local/mysql/bin/
manager_workdir=/usr/local/mha56/workdir
remote_workdir=/usr/local/mha56/workdir
manager_log=/usr/local/mha56/workdir/portnum.log
master_binlog_dir=binary_log_dir
#手动切换脚本
master_ip_online_change_script= /usr/local/mha56/bin/master_ip_online_change
report_script=/usr/local/mha56/bin/send_report
#自动切换时vip管理
#master_ip_failover_script=/usr/local/mha56/bin/master_ip_failover
init_conf_load_script=/usr/local/mha56/auth/mha_auth
user=mymha
#password=
repl_user=myrepl
#repl_password=
ssh_port=10000
ssh_user=mha
ssh_options="-i /home/mha/.ssh/id_rsa_mha.key"
ping_interval=3
max_ping_errors=10
check_repl_filter=0
[server1]
hostname=master_server_ip
port=portnum
[server2]
candidate_master=1
check_repl_delay=0
hostname=slave_server_ip
port=portnum
mha 需要开通ssh。这里用指定公钥的形式拷贝公钥到每台mha manager 和node机器下。 ssh_options="-i /home/mha/.ssh/id_rsa_mha.key" (5.3开始支持)。
系统账号:
为了避开使用rool账号,重新开启 mha 普通系统账号。
系统账号mha要和mysql 实例启动账号在同一个组。才可以读取mysql的binlog。
mysql账号(2个):
mha的监控与故障切换mysql账号mymha 的最小权限要求:
GRANT RELOAD, SUPER, LOCK TABLES, REPLICATION SLAVE, REPLICATION CLIENT ON *.* TO 'mha'@'192.168.%';
GRANT SELECT ON `mysql`.* TO 'mha'@'192.168.%'
若数据库无开启GTID,需要多赋一个权限:
grant Create,alter,delete,insert,update,drop on `mysql`.apply_diff_relay_logs_test to 'mha'@'192.168.%';
mysql的复制账号 repl_user 。权限只需要
GRANT REPLICATION SLAVE, REPLICATION CLIENT ON *.* TO 'mha'@'192.168.%';
把 mha的mysql管理账号mymha 和 复制账号myrepl的密码存在在单独的文件:
init_conf_load_script=/usr/local/mha56/auth/mha_auth
mha_auth 这个文件必须为系统账号mha可执行文件,否则报错。
manager_workdir 是mha存放心跳信息。以及故障切换时的工作目录。
这里为了方便:直接 chown -R mha:mysql /usr/local/mha56 把整个目录属主节赋权mha账号。mysql组。
其他配置选项说明参照官网说明。
----------------------
【检测MHA】:
安装完了mha。并配置了第一个第一套mysql的主从 3306 的mha高可用故障转移。假设配置文件为/usr/local/mha56/conf/mha_3998.conf 。可以开始检测。
检测ssh是否正常:
/usr/local/mha56/bin/masterha_check_repl --conf=/usr/local/mha56/conf/mha_3998.conf
最终信息为 MySQL Replication Health is OK. 表示正常。
检测mysql主从复制集群是否正常:
/usr/local/mha56/bin/masterha_check_repl --conf=/usr/local/mha56/conf/mha_3998.conf
最终为:MySQL Replication Health is OK. 表示正常
手动进行主从切换。
masterha_master_switch --master_state=alive --conf=/usr/local/mha56/conf/mha_3998.conf --orig_master_is_new_slave
最终为:[info] Switching master to 192.168.100.51(192.168.100.51:3998) completed successfully. 表示主从切换成功,从A>B 变为B>A。
最后可以开启mha的管理进程。在主节点出现故障时。mha自动切换。
/usr/local/mha56/bin/masterha_manager --conf=/usr/local/mha56/conf/mha_3998.conf --ignore_last_failover &
检查进程运行状态:
/usr/local/mha56/bin/masterha_check_status --conf=/usr/local/mha56/conf/mha_3998.conf
注:故障切换完毕masterha_manager 进程会退出。workdir目录下回生成 mha_3998.failover.complete 文件。下一次启动masterha_manager 时需要删除该文件才可正常启动。
------------------------------
【服务发现与注册】:
mha只负责master节点出现故障,把主节点转移到其中一个从节点,成为新的的主节点。其余从节点接入到新的主节点。mha切换完毕后。应用链接到原来的master会出现错误的。这是需要把指向mysql主节点的链接转移走。
1、用vip的方式。在新的主节点注册vip。
2、使用域名,用consul 服务发现。把域名指向的ip指走。
3、使用域名。用power+python脚本检测的方式。把域名指向的ip指走。
说明:用域名灵活,如果有读写分离域名。可以灵活编写python脚本。判断从节点延迟的时候或者从节点 复制断开的时候把域名指向主节点的ip。