一、我们一直以来用的heartbeat

大家用heartbeat做双机热备已经都做过很多次很熟悉了,而且配置起来其实也可以说是比较容易的.但是,说实话我们双机配置起来以后能实现的功能其实比较简单,只有在主服务器down掉或者主服务器的heartbeat服务停掉才可以切换,如果要想监控某个进程只有靠脚本。


二、遇到的问题

前一段时间给国电做双机,国电说我们的双机只有在主服务器down掉或者主服务器的heartbeat服务停掉才可以切换,功能太简单了,他们需要在主服务器的网卡坏掉也可以切换,虽然国电的一直比较事多,但是这个要求也算在情理之中,当时我没有答应他们,但是回来却觉得这个功能heartbeat应该可以实现,但是问了技术部的兄弟们,说以前都没有做过,只是通过自己写shell脚本实现过。我相信写脚本也可以很好的实现这个功能,但是我想heartbeat这么一个大名鼎鼎的开原双机热备的软件怎么会没有这个简单,而不可缺少的功能呢?于是经过我查找资料,以及试验,终于找到了heartbeat自带的断网切换的工具-ipfail。我就把具体的实现方法写给大家,希望大家以后可以用的到。


三、ipfail断网切换的原理

  关于ipfail这个断网切换的原理很简单,首先heartbeat要判断自己的网络是否正常其实就是通过ping某个ip,如果可以ping的通,说明网络是通的,如果ping不通了,说明是网络断了,或者是主服务器的网卡坏了,然后执行切换的动作。

但是如果是被ping的那个ip的网卡出问题了怎么办呢,那岂不是也造成了误切换?所幸heartbeat想到了这种情况,而提供了ping group的功能,就是让heartbeat同时ping两个或者两个以上的ip,如果所有的都ping不通了,ipfail才认为是主服务器的网络断了,或是网卡坏了。

  然而在大多数的一般情况下我们ping一个ip也是可以的,因为我们可以把这个ip设置成我们这个网络中default gateway(默认网关)的ip,因为如果是默认网关的网卡坏了,即便是误切换也无所谓了,默认网关坏了那么我们的服务是怎么也不可能被访问到了。

下边我会对 ping 一个ip和ping group的功能及配置方法一一介绍。

四、ipfail的配置与使用

我们要使用ipfail这个断网切换的功能,只要在ha.cf这个配置文件中配置即可,下面我把和ipfail相关,以及和断网切换功能相关的配置文件行给列出:


#ping 10.10.10.254

#ping 172.16.103.254

#

#       Treats 10.10.10.254 and 10.10.10.253 as a psuedo-cluster-member

#       called group1. If either 10.10.10.254 or 10.10.10.253 are up

#       then group1 is up

#       Used together with ipfail below...

#

#ping_group group1 172.16.103.254 172.16.103.212

#ping_group group1 10.0.0.200 10.0.0.202 10.0.0.178

#ping_group group1 172.16.103.254 172.16.103.32

#

#       Processes started and stopped with heartbeat. Restarted unless

#               they exit with rc=100

#

#respawn userid /path/name/to/run

#respawn hacluster /usr/ha/lib/heartbeat/ipfail

#respawn hacluster     /usr/local/lib/heartbeat/ipfail

#

#       Access control for client api

#               default is no access

#

#apiauth client-name gid=gidlist uid=uidlist

#apiauth ipfail gid=haclient uid=hacluster


1.配置文件中有很多英文的解释以及示例被#号注释,供参考,我们使用ipfail时只要去掉相应的#号即可,下面写出ping一个ipipfail配置:


ping 172.16.103.254

respawn hacluster     /usr/local/lib/heartbeat/ipfail

apiauth ipfail gid=haclient uid=hacluster


只有这3行,非常简单,只要写在ha.cf重启动heartbeat服务就可以生效了,我来解释一下这3行配置文件的意思:


ping 172.16.103.254

一般是ping网关,告诉ipfail网络是否畅通。


respawn hacluster     /usr/local/lib/heartbeat/ipfail

这句就是指定断网切换的程序文件路径,我们一定要给出正确的路径,一般情况下,这个ipfail文件会在heartbeat安装目录下的lib/heartbeat/子文件夹下,确认好以后我们给出正确的路径, 其中hacluster是一个uid,是以hacluster这个用户身份运行ipfail。


apiauth ipfail gid=haclient uid=hacluster

是指定对ipfail有权限的用户和组




2.ping一个groupipfail配置:


ping_group group1 172.16.103.254 172.16.103.212

respawn hacluster     /usr/local/lib/heartbeat/ipfail

apiauth ipfail gid=haclient uid=hacluster


ping_group group1 172.16.103.254 172.16.103.212

这个就是同时ping多个ip,只有所有的ip都无法ping通时,ipfail才会执行切换的动作,保证了不会是因为被ping的ip出了问题而产生误切换。


后边两句前面说过了,不再解释了。



最后需要注意的是不要把ping 和ping group 这两行同时写出来,写ping的内容时,要保证ping group是注释的,写ping group时,要保证ping那行是注释着的,否则会出问题的, 切换运行不正常。