实现MySQL的Replication
在MySQL 3.23.15版本之后,MySQL提供了数据库复制的功能,可以实现两个数据库实时同步,增强了MySQL数据库的稳定性,而且可以在企业级应用的数据库层实现Cluster…

条件:
1 Redhat 9
2 Mysql 4.0.20
3 两台机器ip为192.168.37.188 192.168.37.189,分别安装mysql
目标:
1.数据库的双向复制
2.在master与slave网络不通但过后再次恢复正常,master上的数据在slave上也可以得到更新,反之亦然.

本文主要分为以下几个部分:

第一部分 安装MySQL
第二部分 配置/etc/my.cnf(要查看/etc/init.d/mysql脚本判断是/etc/my.cnf)
第三部分 给权限
第四部分 查看工作状态,测试并验证是否可以真正同步
第五部分 Troubleshooting


第一部分  安装MySQL
1.得到MySQL的RPM安装包,列表如下:
MySQL-server-4.0.20-0
MySQL-client-4.0.20-0
MySQL-shared-4.0.20-0
2.使用root身份安装
#rpm –ivh MySQL-*-4.0.20-0
会有进度条提示安装进度;

安装完毕后,MySQL的数据库配置文件在/var/lib/mysql/中,而默认的几个配置文件在/usr/share/mysql/中,有以下几个文件:
My-hug.cnf
My-large.cnf
My-medium.cnf
My-small.cnf
顾名思义,是为了针对不同的应用来设计的,主要是对数据库的一些参数作了优化,具体优化请见my.cnf内的[mysqld]中语句.


第二部分  配置/etc/my.cnf
通过RPM包安装的mysql在/etc/init.d下会生成一个mysql的shell脚本文件,而在Redhat下我们一般用service mysql start的时候,其实就是传给该脚本start参数并执行,那么需要查看该文件,究竟是调用的哪个配置文件,在其中我们找到这么一行…
conf=/etc/my.cnf
那么可以判断配置文件是/etc/my.cnf
假设我们的是中型应用:
#copy /usr/share/mysql/my-medium.cnf /etc/my.cnf
拷贝到/etc/my.cnf之后,就可以对其进行配置,MySQL在每次启动的时候读取该配置文件并按其配置方式启动,因为数据库需要双向复制,则每台机器都需要同时是master和slave,
1、首先在192.168.37.188的/etc/my.cnf下在[mysqld]中修改,以下配置该机为master:
server-id=1  
log-bin  
binlog-do-db=backup  

解释:
1)server-id=1表示是本机的序号为1,一般来讲就是master的意思.
2)log-bin表示打开binlog,打开该选项才可以通过I/O写到Slave的relay-log,也是可以进行replication的前提;
3)binlog-do-db=backup 表示需要备份的数据库是backup这个数据库,
4)如果需要备份多个数据库,那么应该写多行,如下所示:
binlog-do-db=backup1
binlog-do-db=backup2
binlog-do-db=backup3

2、其次仍然在该区域修改,以下配置为该机为slave
master-host=192.168.37.189
master-user=backup
master-password=1234
master-port=3306

3、然后配置192.168.37.189上的my.cnf
在/etc/my.cnf下在[mysqld]中修改:
server-id=2
master-host=192.168.37.188
master-user=username  
master-password=password  
master-port=3306 #主服务器端口  
master-connect-retry=60 #同步时间间隔为60秒  
replicate-do-db=backup
log-bin
binlog-do-db=backup

解释:
1)server-id=2表示本机器的序号;
2)master-host=192.168.37.188 表示本机做slave时的master为192.168.37.188;
3)master-user=username   这里表示master上开放的一个有权限的用户,使其可以从slave连接到master并进行复制;
4)master-password=password 表示授权用户的密码;
5)master-port=3306  master上MySQL服务Listen3306端口;
6)master-connect-retry=60  同步间隔时间;
7)replicate-do-db=backup   表示同步backup数据库;
8)log-bin 打开logbin选项以能写到slave的 I/O线程;
9)binlog-do-db=backup 表示别的机器可以同步本机的backup数据库.
最后重新启动192.168.37.188和192.168.37.189两台机器的mysql.
第三部分  分配权限
在192.168.37.188上使用mysql登陆,操作如下:
(1)Mysql>;grant all privileges on backup.* to ‘backup’@’192.168.37.189’ identified by ‘1234’;
给使用192.168.37.189连接的backup用户以replication的权限…
(2)Mysql>;flush privileges;
刷新权限设置;

在slave上使用mysql登陆
(1)Mysql>; grant all privileges on backup.* to ‘backup’@’192.168.37.188’ identified by ‘1234’;  
(2)Mysql>;flush privileges;
刷新权限设置;

  说明:上面的all privileges在4.0版上应该为replication slave,也就是grant replication slave on ........在3.23上是file,也就是grant file on ........但是我怕有别的麻烦,干脆权限全给好啦.
在进行如上设置之后,可以看出在192.168.37.189设定好并重启mysql以后,mysql会在数据目录(/var/lib/mysql)下生成一个master.info文件和relay-log.info,relay-log.index文件.如果要更改master服务器,则要删除掉这个文件,(即在更改了/etc/my.cnf中master相关信息)在my.cnf文件中重新配置,重新启动mysql,更改才会生效.

第四部分  查看工作状态
1)在master上新建一个backup数据库
Mysql>;create database backup;
2)新建一个表:
Mysql>;create table jintao (id int(10),name varchar(20));
3)查看192.168.37.189上的mysql;
Mysql>;use backup;
Mysql>;show tables;
Mysql>;desc jintao;
Mysql>;select * from jintao;
如果看到与master相同的信息,则可以证明是成功的.
同时可以改动已有的数据库来判断是否已经达到同步,都差不多的…只要证明数据库同步就可以啦…这时不分master/slave,在master上改动slave上会更新,而在slave上改动,master上也可以得到更新.
第五部分  troubleshooting

在master上,其实不需要做什么设置,只需要打开log-bin,写上server-id=1,写上要备份的数据库,则自动是master模式,于是问题主要集中在slave上.那么slave上是如何工作的呢?
Slave上Mysql的Replication工作有两个线程,I/O thread和SQL thread,I/O 的作用是从master 3306端口上把它的binlog取过来(master在被修改了任何内容之后,就会把修改了什么写到自己的binlog等待slave更新),然后写到本地的relay-log,而SQL thread则是去读本地的relay-log,再把它转换成本Mysql所能理解的东西,于是同步就这样一步一步的完成.决定I/O thread的是/var/lib/mysql/master.info,而决定SQL thread的是/var/lib/mysql/relay-log.info.
请注意,因为上边提到了binlog里的内容是改了什么东东,而不是改了以后是什么东东,所以在进行同步之前必须保证两个数据库是完全相同的,不然可能出错.打个比方来说.A机上有一个表里的元组为2,而操作是减一,则binlog只会记录减一这个操作,如果B机上没有,那么则无法得到同步,因为B机没有这个字段,就不知道减一是什么操作.
对于故障诊断,我的方法是都在slave(master/slave是相对的)的mysql(指客户端)里完成.

方法一:show slave status;
正确情况下应该同如下类似:
mysql>; show slave status;
+----------------+-------------+-------------+---------------+-----------------+---------------------+----------------------+---------------+-----------------------+------------------+-------------------+-----------------+---------------------+------------+------------+--------------+---------------------+-----------------+
| Master_Host    | Master_User | Master_Port | Connect_retry | Master_Log_File | Read_Master_Log_Pos | Relay_Log_File       | Relay_Log_Pos | Relay_Master_Log_File | Slave_IO_Running | Slave_SQL_Running | Replicate_do_db | Replicate_ignore_db | Last_errno | Last_error | Skip_counter | Exec_master_log_pos | Relay_log_space |
+----------------+-------------+-------------+---------------+-----------------+---------------------+----------------------+---------------+-----------------------+------------------+-------------------+-----------------+---------------------+------------+------------+--------------+---------------------+-----------------+
| 192.168.37.188 | backup      | 3306        | 5             | Server-bin.020  | 79                  | Jintao-relay-bin.001 | 45            | Server-bin.020        | Yes              | Yes               | backup          |                     | 0          |            | 0            | 79                  | 45              |
+----------------+-------------+-------------+---------------+-----------------+---------------------+----------------------+---------------+-----------------------+------------------+-------------------+-----------------+---------------------+------------+------------+--------------+---------------------+-----------------+
1 row in set (0.00 sec)
上边的Jintao和Server是两台机器的主机名,所以真实情况应该有所分别,注意其中的YES|YES,这个是本地I/O线程及SQL线程的工作状态,要确保都为YES,如果不是YES,请检查mysql是否正常运行.

方法二:show processlist;
如果正确,则应该如下所示:
Mysql>;show processlist;
+----+-------------+-----------+------+---------+------+-----------------------------------------------------------------------+------------------+
| Id | User        | Host      | db   | Command | Time | State                                                                 | Info             |
+----+-------------+-----------+------+---------+------+-----------------------------------------------------------------------+------------------+
|  4 | system user |           | NULL | Connect | 398  | Waiting for master to send event                                      | NULL             |
|  5 | system user |           | NULL | Connect | 398  | Has read all relay log; waiting for the I/O slave thread to update it | NULL             |
|  6 | root        | localhost | NULL | Query   | 0    | NULL                                                                  | show processlist |
+----+-------------+-----------+------+---------+------+-----------------------------------------------------------------------+------------------+
3 rows in set (0.00 sec)

注意同标记过的字符类似,则是正确的,错误情况下应该是这个样子:
mysql>; show processlist;
+----+-------------+-----------+------+---------+------+-----------------------------------------------------------------------+------------------+
| Id | User        | Host      | db   | Command | Time | State                                                                 | Info             |
+----+-------------+-----------+------+---------+------+-----------------------------------------------------------------------+------------------+
|  4 | system user |           | NULL | Connect | 454  | Reconnecting after a failed master event read                         | NULL             |
|  5 | system user |           | NULL | Connect | 454  | Has read all relay log; waiting for the I/O slave thread to update it | NULL             |
|  7 | root        | localhost | NULL | Query   | 0    | NULL                                                                  | show processlist |
+----+-------------+-----------+------+---------+------+-----------------------------------------------------------------------+------------------+
3 rows in set (0.00 sec)
当然如果这里的Reconnecting只是错误的一种,有可能是connecting,则表示正在连接,那么请检查:
1 master上的mysql daemon是否正常运行
2 master与slave的网络连接是否正常
3 my.cnf是否配置正确
4 在修改配置后是否删除过master.info?(删掉以后会自动再生成一个,别担心删掉),因为如果不删掉的话,那么则还是使用原来的配置
5 修改配置后有没有重新启动mysql daemon,重新启动过程后必须证实mysql已经正常启动
6 master上给slave及slave给master上分配的replication用户权限是否正确,master的主机名和dns设置  
7 当前状况两台数据库是否完全相同.

方法三:show master status;
mysql>; show master status;
+----------------+----------+--------------+------------------+
| File           | Position | Binlog_do_db | Binlog_ignore_db |
+----------------+----------+--------------+------------------+
| Server-bin.021 | 79       | backup       |                  |
+----------------+----------+--------------+------------------+
1 row in set (0.00 sec)
注意上边的这条,position不能为0,如果为0则表示有问题,请检查/etc/my.cnf中的server-id及是否打开log-bin
mysql>; show processlist;
+----+--------+---------------------+------+-------------+------+----------------------------------------------------------------+------------------+
| Id | User   | Host                | db   | Command     | Time | State                                                          | Info             |
+----+--------+---------------------+------+-------------+------+----------------------------------------------------------------+------------------+
|  1 | backup | 192.168.37.189:1067 | NULL | Binlog Dump | 284  | Has sent all binlog to slave; waiting for binlog to be updated | NULL             |
|  3 | root   | localhost           | NULL | Query       | 0    | NULL                                                           | show processlist |
+----+--------+---------------------+------+-------------+------+----------------------------------------------------------------+------------------+
2 rows in set (0.00 sec)
如果master上不是这样,那么就应该是master的配置有问题啦.


方法四   查看错误日志
在/var/lib/mysql下有个hostname.err文件,所有的错误都在其中被记录,如下所示:
   041210 12:54:51  mysqld started
041210 12:54:51  Warning: Asked for 196608 thread stack, but got 126976
InnoDB: The first specified data file ./ibdata1 did not exist:
InnoDB: a new database to be created!
041210 12:54:51  InnoDB: Setting file ./ibdata1 size to 10 MB
InnoDB: Database physically writes the file full: wait...
041210 12:54:54  InnoDB: Log file ./ib_logfile0 did not exist: new to be created
InnoDB: Setting log file ./ib_logfile0 size to 5 MB
InnoDB: Database physically writes the file full: wait...
041210 12:54:55  InnoDB: Log file ./ib_logfile1 did not exist: new to be created
InnoDB: Setting log file ./ib_logfile1 size to 5 MB
InnoDB: Database physically writes the file full: wait...
InnoDB: Doublewrite buffer not found: creating new
InnoDB: Doublewrite buffer created
InnoDB: Creating foreign key constraint system tables
InnoDB: Foreign key constraint system tables created
041210 12:54:58  InnoDB: Started
/usr/sbin/mysqld: ready for connections.
Version: '4.0.20-standard-log'  socket: '/var/lib/mysql/mysql.sock'  port: 3306
041210 12:54:58  Slave SQL thread initialized, starting replication in log 'FIRST' at position 0, relay log './Jintao-relay-bin.001' position: 4
041210 12:54:58  Slave I/O thread: connected to master 'backup@192.168.37.188:3306',  replication started in log 'FIRST' at position 4
以上日志没有错误,只是一个例子,但是假如数据库同步失败出现错误时,两个数据库不同,binlog中的记录将不能被slave所理解,所以会出错./var/lib/mysql/下会不停的生成hostname-bin.001及hostname-relay-bin.001之类的文件,这样每次在重新启动master/slave的时候都会用一个新的relay-log来取代原来的.所以该目录会不停的生成类似文件,而hostname-relay-bin.index来控制哪个是当前所使用的relay-log.整体的同步过程上面第五部分开头已经说清楚了,这里不再详述.
Btw:假如不知道本机的hostname,可以在终端下输入
#hostname