生产环境中一台mysql主机存在单点故障,所以要确保mysql的高可用性,即两台MySQL服务器如果其中有一台MySQL服务器挂掉后,另外一台能立马接替其进行工作。

MySQL的高可用方案一般有如下几种keepalived+双主MHAPXCMMMHeartbeat+DRBD等,比较常用的是keepalived+双主,MHA和PXC。本节主要介绍了利用 keepalived 实现 MySQL 数据库的高可用。 Keepalived+mysql双主来实现MySQL-HA,必须保证两台MySQL数据库的数据完全一样,基本思路是两台MySQL互为主从关系,通过Keepalived配置虚拟IP,实现当其中的一台MySQL数据库宕机后,应用能够自动切换到另外一台MySQL数据库,保证系统的高可用。

环境:

OS

centos7 x86_64

Mysql版本

mysql 5.7

Keepalived

keepalived-2.2.0

Mysqlvip

192.168.1.200

Mysql-master01

192.168.1.133

Mysql-master02

192.168.1.134

client

192.168.1.128

一、配置两台MySQL主主同步

该过程的第一部分就是master记录二进制日志。在每个事务更新数据完成之前,master在二日志记录这些改变。MySQL将事务写入二进制日志。在事件写入二进制日志完成后,master通知存储引擎提交事务。 下一步就是slave将master的binary log拷贝到它自己的中继日志。首先,slave开始一个工作线程——I/O线程。I/O线程在master上打开一个普通的连接,然后开始binlog dump process。Binlog dump process从master的二进制日志中读取事件,如果已经同步了master,它会睡眠并等待master产生新的事件。I/O线程将这些事件写入中继日志。 SQL slave thread(SQL从线程)处理该过程的最后一步。SQL线程从中继日志读取事件,并重放其中的事件而更新slave的数据,使其与master中的数据一致。只要该线程与I/O线程保持一致,中继日志通常会位于OS的缓存中,所以中继日志的开销很小。主主同步就是两台机器互为主的关系,在任何一台机器上写入都会同步。 若mysql主机开启了防火墙,需要关闭防火墙或创建规则。

1、修改MySQL配置文件

两台MySQL均要开启 binlog日志功能,两台 MySQL 的 server-ID 不能一样,默认情况下两台MySQL的serverID都是1,需将其中一台修改为2即可。

master01中有关复制的配置如下:

[root@master01 ~]# vim /etc/my.cnf 
[mysqld]
……
server_id=1
log_bin = /usr/local/mysql/data/log-bin
binlog_format = mixed
relay_log = relay-bin
relay_log_index = slave-relay-bin.index
auto_increment_increment = 2
auto_increment_offset = 1

[root@master01 ~]# systemctl restart mysqld		#重启mysqld服务

master02中有关复制的配置如下:

[root@master02 ~]# vim /etc/my.cnf 
[mysqld]
……
server_id=2
log_bin = /usr/local/mysql/data/log-bin
binlog_format = mixed
relay_log = relay-bin
relay_log_index = slave-relay-bin.index
auto_increment_increment = 2
auto_increment_offset = 2

[root@master02 ~]# systemctl restart mysqld		#重启mysqld服务

注:master01和master02只有server-id不同和 auto-increment-offset不同。

mysql中有自增长字段,在做数据库的主主同步时需要设置自增长的两个相关配置:auto_increment_offset和auto_increment_increment。 auto-increment-increment表示自增长字段每次递增的量,其默认值是1。它的值应设为整个结构中服务器的总数,本案例用到两台服务器,所以值设为2。 auto-increment-offset是用来设定数据库中自动增长的起点(即初始值),因为这两能服务器都设定了一次自动增长值2,所以它们的起点必须得不同,这样才能避免两台服务器数据同步时出现主键冲突,
注:可以在my.cnf文件中添加“binlog_do_db=数据库名”配置项(可以添加多个)来指定要同步的数据库

2、将master01设为master02的主服务器

在master01主机上创建授权账户,允许在master02(192.168.1.134)主机上连接

[root@master01 ~]# mysql -uroot -p123
mysql> grant replication slave on *.* to rep@'192.168.1.134' identified by '123';
mysql> flush privileges;

mysql> show master status;		#查看master1的当前binlog状态信息
+----------------+----------+--------------+------------------+-------------------+
| File           | Position | Binlog_Do_DB | Binlog_Ignore_DB | Executed_Gtid_Set |
+----------------+----------+--------------+------------------+-------------------+
| log-bin.000001 |      610 |              |                  |                   |
+----------------+----------+--------------+------------------+-------------------+

在master02上将master01设为自已的主服务器并开启slave功能

[root@master02 ~]# mysql -uroot -p123
mysql> change master to master_host='192.168.1.133',master_user='rep',master_password='123',master_log_file='log-bin.000001',master_log_pos=610;
mysql> start slave;

设置防火墙:

#iptables I INPUT –p tcp –dport 3306 –j ACCEPT
#service iptables save

查看从的状态
mysql>show slave status\G;以下两个值必须为yes,代表从服务器能正常连接主服务器

mysql> show slave status\G
*************************** 1. row ***************************
               Slave_IO_State: Waiting for master to send event
                  Master_Host: 192.168.1.133
                  Master_User: rep
                  Master_Port: 3306
                Connect_Retry: 60
              Master_Log_File: log-bin.000001
          Read_Master_Log_Pos: 610
               Relay_Log_File: relay-bin.000003
                Relay_Log_Pos: 318
        Relay_Master_Log_File: log-bin.000001
             Slave_IO_Running: Yes
            Slave_SQL_Running: Yes
              Replicate_Do_DB:

3、将master02设为master01的主服务器

在master2主机上创建授权账户,允许在master1(192.168.1.133)主机上连接

mysql> grant replication slave on *.* to rep@'192.168.1.133' identified by '123';
mysql> flush privileges;

查看master2的当前binlog状态信息

mysql> show master status;
+----------------+----------+--------------+------------------+-------------------+
| File           | Position | Binlog_Do_DB | Binlog_Ignore_DB | Executed_Gtid_Set |
+----------------+----------+--------------+------------------+-------------------+
| log-bin.000002 |      610 |              |                  |                   |
+----------------+----------+--------------+------------------+-------------------+

在master1上将master2设为自已的主服务器并开启slave功能

mysql> change master to master_host='192.168.1.134',master_user='rep',master_password='123',master_log_file='log-bin.000002',master_log_pos=610;
mysql> start slave;

设置防火墙:

#iptables I INPUT –p tcp –dport 3306 –j ACCEPT
#service iptables save

查看从的状态
以下两个值必须为yes,代表从服务器能正常连接主服务器

mysql> show slave status\G
*************************** 1. row ***************************
               Slave_IO_State: Waiting for master to send event
                  Master_Host: 192.168.1.134
                  Master_User: rep
                  Master_Port: 3306
                Connect_Retry: 60
              Master_Log_File: log-bin.000002
          Read_Master_Log_Pos: 610
               Relay_Log_File: relay-bin.000002
                Relay_Log_Pos: 318
        Relay_Master_Log_File: log-bin.000002
             Slave_IO_Running: Yes
            Slave_SQL_Running: Yes
              Replicate_Do_DB:

4、测试主主同步

在master1上创建要同步的数据库如test_db,并在test_db中创建一张测试表如tab1

mysql> create database aaa;
mysql> use aaa;
mysql> create table a(id int primary key auto_increment,name varchar(20));
mysql> insert into a(name) values('a'),('b');

查看master2主机是否同步了master1上的数据变化

mysql> select * from aaa.a;
+----+------+
| id | name |		# 可以看出master2同步了master的数据变化
+----+------+
|  1 | a    |
|  3 | b    |
+----+------+

mysql> use aaa
mysql> insert into a(name) values('c'),('d');
mysql> select * from aaa.a;
+----+------+
| id | name |
+----+------+
|  1 | a    |
|  3 | b    |
|  4 | c    |
|  6 | d    |
+----+------+

查看master1主机是否同步了master2上的数据变化

mysql> select * from aaa.a;
+----+------+
| id | name |
+----+------+
|  1 | a    |
|  3 | b    |
|  4 | c    |
|  6 | d    |
+----+------+

现在任何一台MySQL上更新数据都会同步到另一台MySQL,MySQL同步完成。

注:若主MYSQL服务器已经存在,只是后期才搭建从MYSQL服务器,在置配数据同步前应先将主MYSQL服务器的要同步的数据库拷贝到从MYSQL服务器上(如先在主MYSQL上备份数据库,再用备份在从MYSQL服务器上恢复)

二、keepalived的安装配置

keepalived是集群管理中保证集群高可用的一个软件解决方案,其功能类似于heartbeat,用来防止单点故障 keepalived是以VRRP协议为实现基础的,VRRP全称Virtual Router Redundancy Protocol,即虚拟路由冗余协议。 虚拟路由冗余协议,可以认为是实现路由器高可用的协议,即将N台提供相同功能的路由器组成一个路由器组,这个组里面有一个master和多个backup,master上面有一个对外提供服务的vip,master会发组播(组播地址为224.0.0.18),当backup收不到vrrp包时就认为master宕掉了,这时就需要根据VRRP的优先级来选举一个backup当master。这样的话就可以保证路由器的高可用了。keepalived主要有三个模块,分别是core 、check和vrrp。core模块为keepalived的核心,负责主进程的启动、维护以及全局配置文件的加载和解析。check负责健康检查,包括常见的各种检查方式。vrrp模块是来实现 VRRP协议的。

1、在master01和master02上安装软件包keepalived (也可以通过rpm或yum工具进行安装)

安装keepalived软件包与服务控制在编译安装Keepalived之前,必须先安装内核开发包kernel-devel以及openssl-devel、popt-devel等支持库

[root@master01 ~]# cd /usr/src/
[root@master01 src]# wget https://www.keepalived.org/software/keepalived-2.2.0.tar.gz
[root@master01 src]# yum -y install kernel-devel openssl-devel popt-devel


[root@master02 ~]# cd /usr/src/
[root@master02 src]# wget https://www.keepalived.org/software/keepalived-2.2.0.tar.gz
[root@master02 src]# yum -y install kernel-devel openssl-devel popt-devel

编译安装Keepalived

[root@master01 src]# tar zxf keepalived-2.2.0.tar.gz 
[root@master01 src]# cd keepalived-2.2.0/
[root@master01 keepalived-2.2.0]# ./configure --prefix=/ && make && make install


[root@master02 src]# tar zxf keepalived-2.2.0.tar.gz 
[root@master02 src]# cd keepalived-2.2.0/
[root@master02 keepalived-2.2.0]# ./configure --prefix=/ && make && make install

注意:如不知道keepalived需要哪些依赖包,可到下载后的源码解压目录下查看INSTALL 文件内容, 执行make install操作之后,会自动生成/etc/init.d/keepalived脚本文件,但还需要手动添加为系统服务,这样就可以使用 service、chkconfig工具来对keepalived服务程序进行管理了。

注:若开启了防火墙,需要关闭防火墙或创建规则。 创建防火墙规则:

# firewall-cmd --direct --permanent --add-rule ipv4 filter OUTPUT 0 --in-interface enp0s3 --destination 224.0.0.18 --protocol vrrp -j ACCEPT
# firewall-cmd --direct --permanent --add-rule ipv4 filter INPUT 0 --in-interface enp0s3 --destination 224.0.0.18 --protocol vrrp -j ACCEPT
# firewall-cmd --reload

2、修改Keepalived的配置文件

keepalived只有一个配置文件keepalived.conf,里面主要包括以下三个配置区域:

  • global_defs:主要是配置故障发生时的通知对象以及机器标识。
  • vrrp_instance:用来定义对外提供服务的VIP区域及其相关属性。
  • virtual_server:虚拟服务器定义

keepalived.conf文件的修改例如:

vim /etc/keepalived/keepalived.conf
! Configuration File for keepalived             #!表示注释

global_defs {
        router_id master01              # 表示运行keepalived服务器的一个标识
}

vrrp_instance VI_1 {
        state BACKUP            #指定keepalived的角色, 两台配置此处均是BACKUP,设为BACKUP将根据优先级决定主或从
        interface ens33         #指定HA监测网络的接口
        virtual_router_id 51    #虚拟路由标识,这个标识是一个数字(取值在0-255之间,用来区分多个instance的VRRP组播)
        nopreempt               #不抢占,即允许一个priority比较低的节点作为master,即使有priority更高的节点启动
        ↓↓↓此项必须不同,否则发生冲突↓↓↓
        priority 100            #用来选举master的,要成为master,该项取值范围是1-255(在此范围之外会被识别成默认值100),此处master2上设置为50
        advert_int 1            #发VRRP包的时间间隔,即多久进行一次master选举(可以认为是健康查检时
间间隔)
        authentication {        #认证区域,认证类型有PASS和HA(IPSEC),推荐使用PASS(密码只识别前8位)
                auth_type PASS
                auth_pass 1111
        }
        virtual_ipaddress {     #VIP区域,指定vip地址
                192.168.1.200
        }
}

virtual_server 192.168.1.200 3306 {     #设置虚拟服务器,需要指定虚拟IP地址和服务端口,IP与端口之间用空格隔开
        delay_loop 6    #设置运行情况检查时间,单位是秒
        lb_algo rr      #设置后端调度算法,这里设置为rr,即轮询算法
        lb_kind DR      #设置LVS实现负载均衡的机制,有NAT、TUN、DR三个模式可选
        persistence_timeout 50  #会话保持时间,单位是秒。这个选项对动态网页是非常有用的,为集群系统中的session共享提供了一个很好的解决方案。有了这个会话保持功能,用户的请求会被一直分发到某个服务节点,直到超过这个会话的保持时间。
        protocol TCP    #指定转发协议类型,有TCP和UDP两种
        real_server 192.168.1.133 3306 {        #配置服务节点1,需要指定real server的真实IP地址和端口,IP与端口之间用空格隔开
                                        #注:master 2上此处改为192.168.1.102(即master2本机ip)
                weight 1        #配置服务节点的权值,权值大小用数字表示,数字越大,权值越高,设置权值大小为了区分不同性能的服务器
                notify_down /etc/keepalived/bin/mysql.sh        #检测到realserver的mysql服务down后执行的脚本
                TCP_CHECK {
                        connect_port 3306       #健康检查端口
                        connect_timeout 3       #连接超时时间
                        retry 3         #重连次数
                        delay_before_retry 3    #重连间隔时间
                }
        }
}

master1主机上有关keepalived.conf文件的具体配置如下:

[root@master01 ~]# vim /etc/keepalived/keepalived.conf
global_defs {
        router_id master01
}

vrrp_instance VI_1 {
        state BACKUP
        interface ens33
        virtual_router_id 51
        nopreempt
        priority 100
        advert_int 1
        authentication {
                auth_type PASS
                auth_pass 1111
        }
        virtual_ipaddress {
                192.168.1.200
        }
}

virtual_server 192.168.1.200 3306 {
        delay_loop 6
        lb_algo rr
        lb_kind DR
        persistence_timeout 50
        protocol TCP
        real_server 192.168.1.133 3306 {
                weight 1
                notify_down /etc/keepalived/bin/mysql.sh
                TCP_CHECK {
                        connect_port 3306
                        connect_timeout 3
                        retry 3
                        delay_before_retry 3
                }
        }
}

[root@master01 ~]# scp /etc/keepalived/keepalived.conf root@192.168.1.134:/etc/keepalived/

Master2主机上的keepalived.conf文件的修改:

[root@master02 ~]# vim /etc/keepalived/keepalived.conf
global_defs {
        router_id master02
}

vrrp_instance VI_1 {
        state BACKUP
        interface ens33
        virtual_router_id 51
        nopreempt
        priority 50
        advert_int 1
        authentication {
                auth_type PASS
                auth_pass 1111
        }
        virtual_ipaddress {
                192.168.1.200
        }
}

virtual_server 192.168.1.200 3306 {
        delay_loop 6
        lb_algo rr
        lb_kind DR
        persistence_timeout 50
        protocol TCP
        real_server 192.168.1.134 3306 {
                weight 1
                notify_down /etc/keepalived/bin/mysql.sh
                TCP_CHECK {
                        connect_port 3306
                        connect_timeout 3
                        retry 3
                        delay_before_retry 3
                }
        }
}

3、创建mysql联动keepalived脚本

[root@master01 ~]# mkdir /etc/keepalived/bin
[root@master01 ~]# vim /etc/keepalived/bin/mysql.sh
#!/bin/bash
pkill keepalived

[root@master01 ~]# chmod +x /etc/keepalived/bin/mysql.sh
[root@master01 ~]# scp -r /etc/keepalived/bin/ root@192.168.1.134:/etc/keepalived/
[root@master01 ~]# systemctl restart keepalived


[root@master02 ~]# systemctl restart keepalived		# 启动keepalived 服务

4、测试

在master1和master2分别执行ip addr show dev ens33命令查看master1和master2对VIP(群集虚拟IP)的控制权。

Master1主的查看结果:
[root@master01 ~]# ip a show dev ens33
2: ens33: <BROADCAST,MULTICAST,UP,LOWER_UP> mtu 1500 qdisc pfifo_fast state UP group default qlen 1000
    link/ether 00:0c:29:29:01:4a brd ff:ff:ff:ff:ff:ff
    inet 192.168.1.133/24 brd 192.168.1.255 scope global noprefixroute ens33
       valid_lft forever preferred_lft forever
    inet 192.168.1.200/32 scope global ens33
       valid_lft forever preferred_lft forever
    inet6 fe80::aac:587:68ef:d250/64 scope link tentative noprefixroute dadfailed 
       valid_lft forever preferred_lft forever
    inet6 fe80::1578:b561:bf00:64cf/64 scope link noprefixroute 
       valid_lft forever preferred_lft forever

Master2主的查看结果:
[root@master02 ~]# ip a show dev ens33
2: ens33: <BROADCAST,MULTICAST,UP,LOWER_UP> mtu 1500 qdisc pfifo_fast state UP group default qlen 1000
    link/ether 00:0c:29:ab:5e:4c brd ff:ff:ff:ff:ff:ff
    inet 192.168.1.134/24 brd 192.168.1.255 scope global noprefixroute ens33
       valid_lft forever preferred_lft forever
    inet6 fe80::aac:587:68ef:d250/64 scope link noprefixroute 
       valid_lft forever preferred_lft forever

从上边可以看出master1是主服务器,master2为备用服务器

停止MySQL服务,看keepalived健康检查程序是否会触发编写的脚本

[root@master01 ~]# systemctl stop mysqld		# 停止master1主机的mysql服务

master2主的查看结果:

[root@master02 ~]# ip a show dev ens33
2: ens33: <BROADCAST,MULTICAST,UP,LOWER_UP> mtu 1500 qdisc pfifo_fast state UP group default qlen 1000
    link/ether 00:0c:29:ab:5e:4c brd ff:ff:ff:ff:ff:ff
    inet 192.168.1.134/24 brd 192.168.1.255 scope global noprefixroute ens33
       valid_lft forever preferred_lft forever
    inet 192.168.1.200/32 scope global ens33
       valid_lft forever preferred_lft forever
    inet6 fe80::aac:587:68ef:d250/64 scope link noprefixroute 
       valid_lft forever preferred_lft forever

# 这说明在主服务上停止MySQL服务,触发了编写的脚本,进行自动故障切换

5、MySQL远程登录测试

找一台安装有MySQL客户端,然后登录VIP,看是否能登录,在登录之前两台MySQL服务器都要授权允许从远程登录。例如:

[root@master01 ~]# systemctl start mysqld
[root@master01 ~]# systemctl start keepalived
[root@master01 ~]# mysql -uroot -p123
mysql> grant all privileges on *.* to tel@'192.168.1.128' identified by '123';


[root@master02 ~]# mysql -uroot -p123
mysql> grant all privileges on *.* to tel@'192.168.1.128' identified by '123';

在客户端上测试登录

[root@client ~]# yum -y install mysql
[root@client ~]# mysql -utel -p123 -h192.168.1.200
MySQL [(none)]> show variables like 'server_id';
+---------------+-------+
| Variable_name | Value |
+---------------+-------+
| server_id     | 2     |
+---------------+-------+

上边显示说明在客户端访问VIP地址,由master2主机提供响应的,因为master2当前是主服务器,将master2的 mysql服务停止,在客户端执行show variables like ‘server_id’;

[root@master02 ~]# systemctl stop mysqld

[root@client ~]# mysql -utel -p123 -h192.168.1.200
MySQL [(none)]> show variables like 'server_id';
+---------------+-------+
| Variable_name | Value |
+---------------+-------+
| server_id     | 1     |
+---------------+-------+

上边显示说明在客户端的查询请求是由master1主机响应的,故障切换成功。

总结:

Keepalived+mysql双主一般来说,中小型规模的时候,采用这种架构是最省事的。在master节点发生故障后,利用keepalived的高可用机制实现快速切换到备用节点。

在这个方案里,有几个需要注意的地方:

  • 1、采用keepalived作为高可用方案时,两个节点最好都设置成BACKUP模式,避免因为意外情况下(比如脑裂)相互抢占导致往两个节点写入相同数据而引发冲突;
  • 2、把两个节点的auto_increment_increment(自增步长)和auto_increment_offset(自增起始值)设成不同值。其目的是为了避免master节点意外宕机时,可能会有部分binlog未能及时复制到slave上被应用,从而会导致slave新写入数据的自增值和原先master上冲突了,因此一开始就使其错开;当然了,如果有合适的容错机制能解决主从自增ID冲突的话,也可以不这么做;
  • 3、slave节点服务器配置不要太差,否则更容易导致复制延迟。作为热备节点的slave服务器,硬件配置不能低于master节点;
  • 4、如果对延迟问题很敏感的话,可考虑使用MariaDB分支版本,或者直接上线MySQL 5.7最新版本,利用多线程复制的方式可以很大程度降低复制延迟;