数据容灾系统
汕头海关 黄任之
当今的世界,正在跨入信息时代,数据和信息逐渐成为各行各业的业务基础和命脉。当企业因为信息化带来快捷的服务决策和方便管理时,也必须面对着数据丢失的危险。
数据容灾系统,对于IT而言,就是为计算机信息系统提供的一个能应付各种灾难的环境。当计算机系统在遭受如火灾、水灾、地震、战争等不可抗拒的自然灾难以及计算机犯罪、计算机病毒、掉电、网络/通信失败、硬件/软件错误和人为操作错误等人为灾难时,容灾系统将保证用户数据的安全性(数据容灾),甚至,一个更加完善的容灾系统,还能提供不间断的应用服务(应用容灾)。可以说,容灾系统是数据存储备份的最高层次。
一般来说,为了保护数据安全和提高数据的持续可用性,企业要从RAID保护、冗余结构、数据备份、故障预警等多方面考虑。一套完整的容灾系统应该包括本地容灾和异地容灾。对于那些关键业务不能中断的用户和行业如电信、海关、金融行业来说更应如此。以下,本文将探讨容灾系统的一些关键技术,包括数据备份、数据复制、网络存储,并以HP存储设备举例说明如何构造三级容灾体系。
一、数据备份
数据备份是容灾的基础,是指为防止系统出现操作失误或系统故障导致数据丢失,而将全部或部分数据集合从应用主机的硬盘或阵列复制到其它的存储介质的过程。传统的数据备份主要是采用内置或外置的磁带机进行冷备份。但是这种方式只能防止操作失误等人为故障,而且其恢复时间也很长。随着技术的不断发展,数据的海量增加,不少的企业开始采用网络备份。网络备份一般通过专业的数据存储管理软件结合相应的硬件和存储设备来实现。
目前比较常见的备份方式有:
定期磁带备份数据。
远程磁带库、光盘库备份。即将数据传送到远程备份中心制作完整的备份磁带或光盘。
远程关键数据+磁带备份。采用磁带备份数据,生产机实时向备份机发送关键数据。
远程数据库备份。就是在与主数据库所在生产机相分离的备份机上建立主数据库的一个拷贝。
网络数据镜像。这种方式是对生产系统的数据库数据和所需跟踪的重要目标文件的更新进行监控与跟踪,并将更新日志实时通过网络传送到备份系统,备份系统则根据日志对磁盘进行更新。
远程镜像磁盘。通过高速光纤通道线路和磁盘控制技术将镜像磁盘延伸到远离生产机的地方,镜像磁盘数据与主磁盘数据完全一致,更新方式为同步或异步。
数据备份必须要考虑到数据恢复的问题,包括采用双机热备、磁盘镜像或容错、备份磁带异地存放、关键部件冗余等多种灾难预防措施。这些措施能够在系统发生故障后进行系统恢复。但是这些措施一般只能处理计算机单点故障,对区域性、毁灭性灾难则束手无策,也不具备灾难恢复能力。
一切容灾系统的建立都是以数据备份为基础的,特别对关键业务不能中断的用户和行业来说,更应该实施多种备份以防止灾难。但是仅有数据备份是远远不够的。那么,什么是全面的容灾方式呢?全面的容灾方式应该是备份+数据复制+远程容灾。
二、数据远程复制技术
在选择容灾系统的构造时,首先要考虑的就是选择合理的异地数据复制技术。数据的远程复制技术是容灾系统的核心技术,通过有效的数据复制,远程的业务数据中心与本地的业务数据实现同步,确保一旦本地系统故障,远程的容灾中心能迅速进行完整的接管。
一般说,容灾系统的数据复制技术上存在两种主流模式:磁盘设备硬件数据复制技术和系统虚拟磁盘卷的软件数据复制技术。采用硬件的数据复制技术,指通过专线实现物理存储设备之间的数据交换。软件的数据复制技术,指通过逻辑磁盘(也称逻辑卷,可以容纳文件系统或数据库)的复制技术实现本地的逻辑磁盘和远程的逻辑磁盘的数据同步,这种方式可以通过广域网络基于IP实现,而且,软件实现数据复制的技术,可以实现远程的全程高可用体系(远程监控和切换)。硬件的数据复制与软件复制技术实现方式有很大差异。一般来说,硬件复制技术主机开销略小,但磁盘开销大,传输距离短。软件数据复制技术基于操作系统实现,传输距离较长,存储设备开放,并且对本地业务产生的效率影响较小,该种方式对主机的开销略大。
在数据复制的方式上,主要有同步方式和异步方式两种。
同步数据复制,指通过容灾软件(或硬件系统),将本地生产数据以完全同步的方式复制到异地,每一本地IO交易均需等待远程复制的完成方予以释放。异步数据复制,指通过容灾软件(或硬件系统),将本地生产数据以后台同步的方式复制到异地,每一本地IO交易均正常释放,无需等待远程复制的完成,本地数据的远程复制均在后台的Log区域进行。
同步复制实时性强,灾难发生时远端数据与本地数据完全同步。但这种方式受带宽影响较大,数据传输距离较短(一般专线连接在60公里以内,常见于同城系统)。异步数据复制方式在软件容灾方式中广泛采用(硬件容灾一般不采用),异步复制不影响本地交易,传输距离长(距离可达1000公里以上),但其数据比本地数据略有延迟。在异步复制环境中,对于所有应用最关键的就是要确保数据的一致性。
在数据复制的同时,还需要远程动态监测软件对数据复制状况进行动态监测,当主机/应用发生故障时,会马上监测到,将故障情况向管理员报警,然后根据策略自动或手工快速地将应用进行切换,确保复制数据的正常进行。
数据远程复制对数据系统的一致性和可靠性以及系统的应变能力具有举足轻重的作用,决定着容灾系统的可靠性和可用性。对于关键业务来说来说,可以考虑同步异步两种方式接合采用,这样才能保证其关键数据万无一失。
三、容灾系统的建立
容灾系统的建立,一定要以用户的需求为出发点,首先要根据应用的类型确定需求的优先顺序原则,这样才能确定相关的方案。以下的因素应是容灾系统建设重点考虑的相关原则:
容灾系统应具有开放性,不依赖特定硬件系统。应支持包括TCP/IP网络在内的广泛的传输介质。
考虑到容灾能力和对应用系统性能的影响,容灾方案不仅要支持近距的、同步的数据容灾,还必须能支持远程的、异步的数据容灾。对于异地数据容灾,数据复制不仅仅要求在异地有一份数据拷贝,同时必须保证异地数据的完整性、可用性。
容灾系统本身应具备各种容错考虑。能支持灵活多样的容灾结构。
完善的容灾系统应该考虑实用的灾难恢复手段,建立多层次的广域网络故障切换机制。在远程的容灾系统中,既要包含本地系统的安全机制、远程的数据复制机制,还应具有广域网范围的远程故障切换能力和故障诊断能力。也就是说,一旦故障发生,系统要有强大的故障诊断和切换策略制订机制,确保快速的反应和迅速的业务接管。实际上,广域网范围的高可用能力与本地系统的高可用能力应形成一个整体,实现多级的故障切换和恢复机制,确保系统在各个范围的可靠和安全。
四、网络存储技术

图一:NAS结构示意图
有数据显示,未来几年内,所有存储市场的增长均来源于网络存储市场(NAS/SAN)。网络存储将成为新世纪初存储发展的关键技术。
NAS(Network Attached Storage-网络附着存储)即将存储设备通过标准的网络拓扑结构(例如以太网)连接到一群计算机上(见图一)。NAS是部件级的存储方法,它的重点在于帮助解决迅速增加存储容量的需求。
SAN(Storage Area Network存储区域网络)通过光纤通道连接到一群计算机上。在该网络中提供了多主机连接,但并非通过标准的网络拓扑(见图二)

图二:SAN结构示意图
SAN专注于企业级存储的特有问题,主要用于存储量大的工作环境。当前企业存储方案所遇到问题的两个根源是:数据与应用系统紧密结合所产生的结构性限制,以及目前小型计算机系统接口(SCSI)标准的限制。大多数分析都认为SAN是未来企业级的存储方案,这是因为SAN便于集成,能改善数据可用性及网络性能,而且还可以减轻存储管理作业。
SAN是目前人们公认的最具有发展潜力的存储技术方案,而未来SAN的发展趋势将是开放、智能与集成。NAS是目前增长最快的一种存储技术,然而就二者的发展趋势而言,在应用层面上SAN和NAS将实现充分的融合。可以说,NAS和SAN技术已经成为当今数据容灾备份的主流技术,关键在于如何在此基础上开发完善全方位、多层次的数据容灾备份系统,在分布式网络环境下,通过专业的数据存储管理软件,结合相应的硬件和存储设备,来对全网络的数据备份进行集中管理,从而实现自动化的备份、文件归档、数据分级存储以及灾难恢复等功能。
五、三级体系结构的容灾系统
目前比较完善的容灾系统设计一般为三级体系结构的容灾系统,整套系统包括存储、备份和灾难恢复部分。以下使用惠普生产的备份服务器,模块化磁盘阵列,备份磁带库和相关容灾软件举例三级体系结构的容灾系统的建立。
1、数据存储子系统
正常情况下,业务系统运行在主中心服务器上,业务数据存储在主中心存储磁盘阵列EMA12000中。EMA12000具有从12个磁盘驱动器到最多126个磁盘驱动器的扩展能力,能跨越多个大型主机和混合的UNIX、多厂商的Windows NT、Windows 2000以及其他开放系统的平台。
惠普为EMA12000系统设计的ASC阵列控制软件,实现了对跨多服务器平台数据的集中式控制,使数据不管在何时、在何地、以及何种方式需要,其可用性都能以真正的零停机时间得到成分保证。
2、数据备份子系统
为了实现业务数据的实时灾难备份功能,关键应用可设置两个数据中心,分别是主中心和备份中心。主中心系统配置主机包括两台或多台HP ALPHA服务器以及其他相关服务器,通过构成SCSI CLUSTER组成多机高可靠性环境。主中心通过ATM/E3/WDM与备份中心连接。
在容灾系统解决方案中,正常情况下,业务系统运行在主中心服务器上,业务数据存储在主中心存储磁盘阵列EMA12000中,同时在备份中心配置EMA12000存储磁盘阵列。主中心存储磁盘阵列通过ATM/E3/WDM连接到备份中心磁盘阵列,DRM(数据复制管理器)使主中心存储数据与备份中心数据保持实时完全一致。
3、灾难恢复子系统
方案中,备份数据的磁带库安置在备份中心,利用备份服务器直接连接到存储阵列EMA12000和磁带库TL895,通过EBS(企业数据备份)和Legato NetWorker 数据存储管理系统控制系统的备份。万一主数据中心出现意外灾难,系统可以自动切换到备份数据中心,在保持连续运行的基础上,快速恢复主数据中心的业务数据。
该套三级体系容灾方案具有高度的可用性。第一级,为了避免系统单点失败而影响整个系统的情况出现,采用了冗余的手段,大到主机,存储设备,小到光纤适配器,均具备冗余容错功能;第二级,无论是主机或存储设备出现故障,均可通过主/备份中心光纤交换机之间的连接来保证通信和数据的完整性;第三级,万一主数据中心出现意外灾难,系统可以自动切换到备份数据中心。三级体系的科学设计保证了数据容灾系统的高度可用性和可靠性。
不仅如此,惠普独有的HP OpenView网络设备管理软件从根本上将系统管理人员解脱出来。整个系统的设备虽然很多,但不论是主机系统,存储设备,还是光纤交换机,光纤卡,均能通过一台工作站进行集中的管理和监控,从另一个方面保证了整个业务系统的连续不断地运行。除正常的计划性停机外,该系统可以做到365×24的可用性。