为验证AIX HACMP集群系统的稳定性及保障其上应用的连续性和可靠性,决定周五晚进行集群切换测试。下面是当次过程的文档总结和记录,方便以后参考并备案。


系统环境:AIX 5.3

数据库: DB2 V8.2

存储: IBM DS4700,为两节点配置使用共享存储


AIX HACMP原理示意图:


AIX HACMP集群切换测试实际案例解析_hacmp



HA测试一: 启动和关闭

在当前系统中确保VG在两边都被varyoff

#smitty clstart 启动HA

tail –f /tmp/hacmp.out 看启动输出信息

tail –f /tmp/cm.log 看错误信息

netstat –i 和 –in 看IP地址是否变为service地址

lsvg –o 查看VG是否在两台机器上被varyon

lssrc –g cluster 看相应SRC是否起来(应该显示2或3个SRC)


如:Subsystem Group PID Status

clsmuxpdES cluster 213488 active

clstrmgrES cluster 238062 active

clinfoES cluster 229656 active

#smitty clstop 关闭HA

graceful(正常)/takeover(接管)/force(强制,IP不变回boot)

这里就选graceful

tail –f /tmp/hacmp.out 看关闭输出信息

tail –f /tmp/cm.log看错误信息

netstat –i 和 –in看IP地址是否变为boot地址

lssrc –g cluster看相应SRC是否已关闭(应该无显示)

使用Cluster Snapshot可以保存当前Cluster配置,以后直接Apply就可恢复。



HA测试二:本机IP接管

确定两台机器HA已正常启动。

拔去与主机service IP关联的网卡的网线。

在主机上运行:

netstat –i 和 –in

这时standby网卡将接管service IP而原service网卡将对应standby IP。

备机不发生任何反应。

插回主机上拔去的网线并运行:

netstat –i 和 –in

这时主机没有任何复原动作,原standby网卡仍对应service IP而原service网

卡仍对应standby IP,即便关闭HA也不会变回来。

AIX HACMP集群切换测试实际案例解析_aix_02

要使网卡恢复最初的对应IP,可以运行:

smitty mktcpip

选定网卡(en0, en1, ... ),不作任何改动回车。


HA测试三:资源接管

确定两台机器HA已正常启动。

模拟主机异常终止运行:

方法一:主机上运行:

smitty clstop 关闭方式选takeover

这种测试是主动告诉对方需要接管,并不是真正模拟了故障,可以

在进行真正故障模拟之前先进行这一步测试。

方法二:主机上运行halt –q即时关机(最佳方法)。

方法三:同时拔去主机所有网线和心跳线。

方法四:主机拔电(不建议)。

在备机上运行:

netstat –i 和 –in

如果备机也有service网卡(在cascading,即mutual takeover配置下),这时备机

的standby网卡将接管主机的service IP;

如果备机没有service网卡(在rotating,即standby配置下),这时备机的boot网

卡将接管主机的service IP。


当备机有svc地址:


AIX HACMP集群切换测试实际案例解析_aix_03


这是资源组会在备机上挂起来,如果没有挂上,则在备机上运行:

varyonvg datavg

mount -a (或一个一个的挂)

在resource group中定义的FS应该在备机上自动mount。


最后测试应用是否正常,完成集群切换测试报告。