浅谈高可用集群市场的发展趋势

一、什么是高可用集群 (集群高可用和负载均衡高可用)

高可用集群,英文原文为High Availability Cluster,简称HA Cluster,是指以减少服务中断(如因服务器宕机等引起的服务中断)时间为目的的服务器集群技术。简单的说,集群(cluster)就是一组计算机,它们作为一个整体向用户提供一组网络资源。这些单个的计算机系统就是集群的节点(node)。

高可用集群的出现是为了使集群的整体服务尽可能可用,从而减少由计算机硬件和软件易错性所带来的损失。它通过保护用户的业务程序对外不间断提供的服务,把因软件/硬件/人为造成的故障对业务的影响降低到最小程度。如果某个节点失效,它的备援节点将在几秒钟的时间内接管它的职责。因此,对于用户而言,集群永远不会停机。高可用集群软件的主要作用就是实现故障检查和业务切换的自动化。

只有两个节点的高可用集群又称为双机热备,即使用两台服务器互相备份。当一台服务器出现故障时,可由另一台服务器承担服务任务,从而在不需要人工干预的情况下,自动保证系统能持续对外提供服务。双机热备只是高可用集群的一种,高可用集群系统更可以支持两个以上的节点,提供比双机热备更多、更高级的功能,更能满足用户不断出现的需求变化。

二、高可用集群的发展方向 

随着企业信息系统的广泛应用和深入发展,用户的核心应用数量越来越多。在这种分布式多应用系统构架下,高可用多节点集群日益被用户接受和广泛使用,集群软件也从Unix平台的高端应用向基于Linux/Windows的平台发展。伴随着企业需求的改变,高可用集群软件市场也表现出了新的发展方向:

1、应用系统多样化

高可用集群的应用系统正朝多样化趋势发展,不仅局限于一般业务,还表现出一些特殊的应用模式。例如在制造业生产线系统中,通过将生产线计算机系统进行集群构筑,来提高系统整体的高可用性;又如在银行等需要保障关键业务运行的行业,为实现系统宕机时间的最小化,甚至有采用容错服务器为平台,配合使用高可用软件来构筑集群系统的案例,这种硬件+软件的“超强阵容”,将系统可用性大大提高。

2、用途多样化
除通常意义上对业务应用的保护外,集群软件还将被用于越来越多的领域中。这里重点谈谈在远程容灾方面的应用。

企业为了业务的持续发展,必须规避在各种灾难发生时的损失,因此,在远程容灾方面的需求不断增加。通过集群技术实现的远程容灾方案,其最大的优势是即使不具备特别的知识,只要对集群的配置有所了解,就能实现灾备。此外,有些用户还会有在较近距离内(如4、5公里左右)兼做大容量数据备份的需求;甚至如果网络链路容许,还可将备份系统建立在异地数据中心进行托管。

3、运行形态多样化

随着CPU多核技术的发展,在处理能力提高的同时,利用虚拟化技术进行服务器整合的需求急增。据统计,在一些发达国家,目前VM市场正在以每年50%的速度增长。但是服务器虚拟化后,必须解决作为虚拟机载体的物理服务器发生单点故障的问题,而且由于虚拟服务器的故障往往与重大故障的发生紧密相关,就更要求系统必须具备高于一般服务器之上的可用性,使得高可用性对虚拟平台的支持成为一种必然。

4、配置及可操作性方面的要求提高

随着高可用集群技术的发展,高可用集群软件的功能变得越来越多,带给客户更多实惠的同时,也带来了配置及可操作性方面的复杂性。因此,简便的配置及可操作性成为一种必然的需求。

三、用户对高可用集群软件的选择 

那么,在高可用集群朝多样化、易操作维护等方向迅速发展的今天,面对市场上品种繁多的集群软件产品,用户应该怎样把握自己的需求,做出正确的选择呢?下面我们就从用户实际需求和集群软件的发展趋势出发,谈谈如何选择一款好的高可用软件。

对于任何一款高可用集群产品,故障监视都是最核心的功能。监视资源种类的多少和监视层次的深浅,都成为评价一款集群软件高可用性的重要指标。此外,在集群系统中,服务器之间还需要定期进行相互间的健康状态检查,称之为心跳探测。心跳探测主要通过网络来进行,包括私网心跳和作为备份方式的公网心跳探测。一款优秀的集群软件应具有完备的心跳探测机制来避免在高负荷状态下心跳超时所导致的误切换。

从产品的适用平台范围和易用性上来说,拥有雄厚实力的集群软件厂家往往能够应对操作系统和硬件平台快速发展的现状,生产出适应更加广泛多样的软硬件平台或特殊环境的产品,还应让用户感到操作维护简单易行。这都是用户在采购时需要充分考虑的。

此外根据用户的不同需求,还可以选择支持远程容灾、虚拟服务器环境的高可用集群产品。

荟萃NEC技术精华的EXPRESSCLUSTER是一款专业的高可用集群软件,可提供Windows和Linux平台上完整的高可用性解决方案。EXPRESSCLUSTER拥有多年优秀的销售业绩和丰富的用户实践。根据Fuji Chimera Research Institute Inc. 2007年5月的统计,从2002年起,EXPRESSCLUSTER连续5年保持在日本的高可用软件市场占有率第一,2006年再次以超过3200个系统的骄人业绩稳居第一。全球超过10000个用户的成功应用验证,和在中国市场上的优异成绩,让EXPRESSCLUSTER成为最受用户欢迎的高可用集群软件之一。近期发布的最新版EXPRESSCLUSTER X系列产品,凭借NEC先进的技术优势和多年丰富应用中总结的经验,在故障侦测机制、适用平台范围、对远程容灾和虚拟化技术的支持、以及产品的维护操作性等方面,进行了全面系列的功能强化和改善。可以说面对用户不断涌现的新需求,NEC已经率先走在了市场前沿。

EXPRESSCLUSTER通过二十多种独立的监视功能模块提供全方位实时故障监视,监视对象涵盖网络、存储、服务器、操作系统、应用程序的服务和进程等多种资源,还能监视EXPRESSCLUSTER自身服务状态和待机服务器上的软硬件资源的状态。通过实时掌握整个集群系统的软硬件资源的状态,在系统发生故障时,就能准确诊断,并及时进行恢复处理。

除了对应用程序和服务进行常规级别的监视外(所谓常规级别的监视,即进程死活级别的监视),EXPRESSCLUSTER还提供了一系列监视选件产品,如Database Agent、Internet Server Agent、LAN Agent、File Server Agent等,这些监视选件产品定期对应用程序进行实际的访问处理,探测应用的响应时间,返回结果等状态,从而实现对应用程序和服务的僵死状态(Stall)的监视,为用户的关键业务系统提供了更深层次的保护。EXPRESSCLUSTER的监视选件可以支持数据库服务器、互联网服务器、文件服务器和应用服务器这几个领域内的几乎全部主流应用。此外,我们还支持用户自行开发的应用监视模块,提供更高的灵活性。

EXPRESSCLUSTER的网络心跳通过系统的内核空间进行,不受系统负荷的影响。除了支持网络心跳外,还可以通过COM口、存储设备上的特定分区、以及Ping第三方的方式确认服务器的状态。

在平台支持方面,EXPRESSCLUSTER支持目前国内几乎所有主流的Windows和Linux操作系统平台,如Windows NT/2000/2003、RedHat、Novell SUSE Linux、RedFlag Linux、MiracleLinux、TurboLinux等。其硬件平台兼容性好,支持IA32、X86_64、IA64、PPC64等硬件平台,还可以支持容错服务器、刀片服务器等特殊用途的硬件设备。由于支持平台广泛,EXPRESSCLUSTER可被用在多种环境下,例如上文提到的在制造业企业和金融企业的应用,都有实际的成功案例。

在操作维护性上,EXPRESSCLUSTER提供基于B/S结构的标准GUI用户界面,采用树状层级显示,集群架构清楚明了。支持远程管理与操作,可在统一的界面下,用统一的方式同时管理多个不同平台上的集群(Windows与Linux集群均可),还能在日志视图中显示系统的详细信息,便于管理者及时发现集群的各种问题。在发生故障或进行切换时,系统可以自动向管理员发送故障通知邮件。通过外接的网络报警灯设备,进行声光方式的故障报警。极大方便了系统管理员。

EXPRESSCLUSTER还提供简易集群配置工具,预先配置集群的各种参数,当创建集群时只需在构成集群的一台服务器上读入集群的配置信息文件,其他的服务器便可自动获取集群信息并加入到该集群中。这样,可以同时完成多台服务器的设置,实现平滑导入,大大方便了系统管理员的操作。

EXPRESSCLUSTER支持虚拟环境。当虚拟计算机上运行的业务发生故障时,EXPRESSCLUSTER可以将其切换到另外一个虚拟计算机。如果虚拟机软件本身发生故障,或者物理服务器发生故障,EXPRESSCLUSTER还能够将虚拟计算机整个切换到另外一台物理服务器上。除此之外,还可以利用虚拟计算机,对物理服务器进行备份。例如,如果希望利用一台服务器,分别对运行不同操作系统的物理服务器进行备份,利用虚拟技术与EXPRESSCLUSTER相结合,将很容易就可以实现。

EXPRESSCLUSTER在应用方式上的另一个创举就是将镜像型集群应用于远程容灾解决方案中。通常的远程容灾解决方案,对网络环境要求高,实施复杂,实现成本也比较昂贵。而利用EXPRESSCLUSTER镜像型产品实现的远程容灾解决方案,不但能够异地备份业务数据,还可以对软硬件资源进行监视,在主节点发生故障时,自动在备份节点上恢复业务,将业务服务的停止时间控制在最小限度内。并且,EXPRESSCLUSTER还针对单链路低带宽的网络环境,对镜像复制功能进行了改造和强化。以前的镜像型集群,为了保证两台服务器上数据的一致性,需要两台服务器上的写操作全部完成后,才可以进行下一步的处理。这样的处理机制在远程镜像结构中,由于网络延迟和带宽的局限,会大大影响主服务器上业务的处理效率。而EXPRESSCLUSTER提供一种异步镜像的方式,可以将本地磁盘的写操作和远程镜像复制分开,回避远程复制对业务处理效率的影响。

利用EXPRESSCLUSTER镜像型产品实现远程容灾和数据备份,是一个性价比很高的低成本解决方案。特别是对小规模系统的容灾需求,是一个非常好的选择。