ROSE HA是美国ROSE Datasystem 公司出品的新一代高可用性软件,它可以将UNIX服务器和Windows 服务器组成集群系统,并对服务器进行监控、故障检测、故障恢复,保护运行服务器中的关键性数据服务和网络服务。对于在客户机/服务器环境中的网络及数据库中集成的高可用需求,ROSE HA提供了非常灵活而且适用的解决方案。

1) ROSE HA 的主要功能特点

界面友好:ROSE HA 提供了友好直观的图形安装界面和监控管理界面。通过直观而又方便的JAVA Applet管理界面,用户可以交互式地对集群系统进行配置、监控和管理,并可以利用Applet的网络特性,通过网络对系统进行远程管理。

支持Active-Active模式和Active-Standby模式:ROSE 高可用性软件支持Active-Active模式和Active-Standby模式。用户可指定每台服务器的作用(active or standby),指定要监控的服务和硬件部分,定义指定的服务发生故障后要采取的进一步行动(如是否重新启动该服务、允许的最大启动时间等)。

支持多条心跳路径:可以将网线和RS-232串口线作为在集群系统上运行的ROSE HA的心跳线。配置多条心跳路径可以避免系统的单点故障。

自动切换:当系统出现故障时(如:系统宕机、HA进程/应用进程被杀掉、RS-232/SCSI/网络线缆断开),ROSE HA 将确定由于某种故障而终止的应用,并将这些应用切换到备份服务器上。而故障服务器中未受影响的应用不会被切换,既不会受任何影响。

自动检测:在集群系统的每一台服务器内,ROSE HA 具有两个核心进程,他们互相监控(如:系统宕机、HA进程被杀掉、RS-232、网络、SCSI线缆是否断开),如果其中一个进程失败,另一个进程会立即进行恢复。

2) ROSE HA其它高可用性能

为了对系统实现有效的保护,要求HA软件要能够检查出可能发生的系统/网络故障。为了构造一个高可靠的集群系统,ROSE HA 从多方面提供了完整的解决方案,包括管理,监控,检测和恢复。

服务器可靠性: 在服务器出现故障(如掉电或宕机)时,另外一台服务器接管故障服务器上运行的所有的关键性应用。

网络可靠性:如果服务器的网络部分发生故障,会导致客户不能连接和访问到服务器,这同样是致命的故障。如果该服务器配备了冗余的网络接口,ROSE HA 会使用它来恢复网络连接。在没有配备冗余的网络接口,或者所有的网络接口均出现故障时,HA会将该应用切换到另外一台服务器上。切换完成后,客户在短暂的切换过程后能够继续访问所需的服务。

磁盘可靠性:需要将应用的全部数据存储在两台服务器都能访问到的共享磁盘中。建议使用磁盘阵列来存储数据,这样可以避免单点失败,而且便于对系统的容量进行扩充。对由Volume Manager管理的磁盘阵列,ROSE HA提供了相应的处理程序,以保证磁盘阵列及数据的可靠性。

文件系统可靠性:UNIX标准的文件系统(UFS)并未考虑到高可用性系统的需求,使用UFS的服务器在宕机、掉电等非正常关机后,会导致文件系统中数据的丢失和冲突。建议在高可用系统中尽量使用改进的VxFS或jUFS,它们能够对文件系统的修改和更新进行记录,在出现错误时,文件系统能够自动地检测并进行快速的恢复。

应用可靠:在高可用性系统中可以运行多个应用。每一个应用是作为一个服务而存在的。在服务器中,当某个服务失败而其它服务正常运行时,ROSE HA将处理这个失败的服务。在将这个服务切换到另一台服务器上时,该服务器上运行的服务也不会受到影响。对于与网络不相关的纯数据应用,只需要切换数据存储和数据处理软件。而在与网络相关的客户机/服务器应用,除了要切换数据存储和数据处理软件外,还需要切换相关的虚拟IP。如果希望两个服务独立地进行切换,则此两个IP地址不能相同。如果使用了相同的IP地址,在发生切换时,ROSE HA会将所有使用该IP的服务都切换到另外一台服务器上去。

3) ROSE HA运行过程

在系统启动后,ROSE HA首先会启动HA Daemon,根据高可用性系统的配置结构进行初始化,然后会启动相应的服务和代理程序来监控和管理系统服务。

如果该代理程序检测到服务处于活动状态,HA Daemon就会认为该服务处于活动状态,并会定时通知后备份服务器上的HA Daemon,告知对方其每项服务处于正常状态。

当代理程序检测到某个服务发生故障时,它就通知HA Daemon管理程序。此时,HA软件首先会按用户设定的重启次数重新启动该服务,如果启动不成功,该服务会由HA转移(切换)到备份服务器上。

HA周期性地检测系统的硬件状态,如果硬件发生故障,HA会把与该故障硬件相关的服务转移到备份服务器上。

当发生服务转移时,HA首先会在运行服务器上停止该服务及相应的Agent之后,在备份服务器上由HA将该服务和相应的Agent启动。由于停止和启动该服务都需要一定的时间,所以当服务被切换(转移)时,该服务会有短暂的中断,转移完成后,服务自动恢复正常运行。

4) ROSE HA的配置

 在GUI界面中完成对ROSE HA的配置是一件非常方便而且有效的事情,系统管理员只要在相应的配置表中填入相应的内容,即可完成对ROSE HA的配置。对ROSE HA的配置共包括这样一些内容:License Information、Server NIC Configuration、Private Net Configuration和Service Configuration。在配置完这些基本内容后,系统管理员还可以根据自己的实际环境要求和应用的变化作相应的修改和增加。