转载请务必注明作者及出处

全球经济一体化的今天,信息系统越来越成为社会生产能力的枢纽和重要支柱,人们忽然发现,今天,信息系统的安全竟然能够成为决定我们生死存亡的核心棋子,我们再也不能在常规意义上来看待这具有举足轻重地位的“大脑”。

我们四路环望,信息经济包围了我们,也产生了巨大的喷薄欲出的新的发展动力。政府开始朝向服务型方向演变,电子政务系统越来越成为政府和百姓的连接桥梁,其作用比肩“血管”。电信领域日新月异的新一代网络技术的飞跃,无一不构建在信息系统的巨手支撑之中。能源系统的发展,已经完全依赖于信息管理系统所构建的“主动脉”。多年以来,人们在认识到信息化社会的典型特征的同时,逐渐在多种程度上开始对于信息技术的安全问题加大投入,施以重墨。数据备份技术的发展,从无到有,从小到大,成为各企业信息系统的一门必修课。

但是,“21世纪的珍珠港事件”的爆发,曾给世界经济带来了极大的负面影响,也使得越来越多的人们对于各业务运行的灾难抗御能力提出了反思,人们发现,天堂与地狱仅一墙之隔。可以说,“容灾”的概念在今天突然变得万分醒目。

当企业因为信息化带来快捷的服务决策和方便管理时,也必须面对着数据丢失的危险,数据大集中也会聚集风险,这是人们意识到的一点。数据的丢失会中断企业正常的业务运行,造成巨大的经济损失。人们开始思忖灾难恢复体系建立的意义,开始将注意力慢慢转向了一个新兴的领域—容灾系统。实际上国际上是将信息系统的容灾体系纳入到一个更大的范畴之内---业务连续性管理。业务连续性管理是一个危机应急的框架,涵盖:

——风险管理

——供应链管理

——it容灾和恢复

——环境设施管理

——安全管理

我们常说的容灾系统就属于it容灾和恢复的技术范畴。容灾,首先要清楚容什么样的灾,其次要清楚灾难后如何恢复,采用何种技术和管理手段确保信息系统能够在系统之后的快速再建、数据如何利用后援手段确保最小程度的丢失。根据国务院信息办今年颁布的《重要信息系统灾难恢复指南》中所述定义,灾难指由于人为或自然的原因,造成信息系统运行严重故障或瘫痪,使信息系统支持的业务功能停顿或服务水平不可接受、达到特定的时间的突发性事件,这类事件通常导致信息系统需要切换到备用场地运行。灾难恢复指为了将信息系统从灾难造成的故障或瘫痪状态恢复到可正常运行状态、并将其支持的业务功能从灾难造成的不正常状态恢复到可接受状态,而设计的活动和流程。



在人们接触到各种各样、形形色色的或真或假的容灾理念之后,许多人却被这个庞大而虚渺的天幕所困惑住了,正所谓,乱花渐入迷人眼。人们发现,一个美好的灾难系统建设的愿望,在实践中往往是那么的过程繁杂,想象中的快速构建的技术轮廓却经常不是那么尽如人意,往往制约了容灾系统建设的最终实效。根据我们了解,众多企业和行业对于如何建立最为有效于自身的容灾系统很少有相当清醒的认识,往往踏入了一些越陷越深的误区。

误区一:

使用远程备份系统替代容灾系统,使得容灾的实际效果远远低于规划,甚至于根本无法实现最初的灾难抗御的设想。

误区二:

采用单一技术手段,实现多系统的混合容灾服务,结果是进退两难,因为这些单一的技术手段实际上具有很高的技术限定条件,一般只是单一系统的特定容灾技术手段之一,而无法适应混合型容灾服务的整体范围。最终,这种所谓的容灾中心,实际上变成了单一系统的特定数据备份中心,根本不具有扩展到多系统灾难恢复服务的能力,所谓的投入产出比可想而知,只能陷入重复建设、重复投资的怪圈,形成了一个为了容灾而容灾的错误定势。这种情况,的确时有发生,尤其在一些政府或行业指令性的灾难服务体系的建设中,屡见不鲜。

误区三:

在容灾中心的建设上,盲目追求设备高性能高指标,而忽略了容灾中心灾难响应所特有的“小概率”特征,造成设备的大量闲置和浪费,设备投资的不合理。

我们听到的最多的问题是:我究竟适合什么样的灾难恢复等级?这么多的技术手段究竟哪一个才适合我?现在容灾技术发展的成熟水准是什么?

让我们来逐渐把思路清晰,勾勒出灾备系统建设的技术路线图。

首先我们要清楚传统的备份体系实际上仅仅处于国际上公认的灾难恢复等级的最为底层的区域,数据备份,是指为防止系统出现操作失误或系统故障导致数据丢失,而将数据集合从应用系统中以备份格式到处到离线的存储介质的过程。在一般定义的灾备恢复等级中,第一级也称为基本支持,主要就指介质的库外存放和管理,也就是备份系统来实现,实际上,这还不是真正意义上的灾难恢复系统,因为其数据的保存间隔实际上是比较长的,常见的是每天一次,也就是对于数据的实时性或近实时性并不提供保证,而且,备份出来的格式是专用的备份格式,并非应用系统中的数据原有格局,恢复时一定要通过格式转换进行倒回操作,因此也并不保证恢复的快捷和精细化的时间点恢复。传统的数据备份主要是采用数据内置或外置的磁带机进行冷备份。早在1990年,存储软件供应商就开始采用这种方式为用户提供数据解决方案,比如ca arcserve、veritas nbu、legato等。要想对数据进行可靠的备份,必须选择专门的备份软、硬件,并制定相应的备份及恢复方案。备份系统主要是人们在日常工作中对付常见系统错误的一种常规手法,因为在我们日常行为中,人为操作错误、系统软件或应用软件缺陷、硬件损毁、电脑病毒、******、突然断电、意外宕机、自然灾害等诸多因素都有可能造成计算机中数据的丢失,从而极有可能演变成一场灭顶之灾。因此,数据备份与恢复实际上是企业的必修课程。

在容灾体系中,人们往往采用rpo(灾难是的数据保存点)和rto(灾难后的业务恢复点)这两个指标来衡量容灾体系的应急能力和系统保护能力。一般而言,确保rpo指标的基本要求(也就是仅仅考虑数据要保存到接近故障点)往往被称为数据级灾难备份系统,而对于rpo和rto(也就是业务灾难恢复能力)的双重要求,往往被称为应用级灾备系统,也就是灾难时要考虑业务的处理系统的快速恢复能力。数据级灾备系统地代价相对比较低,而应用级灾备则不同,根据系统的复杂程度,有可能十分高昂。所以,一些企业采用建立数据级灾备和应用级灾备分步走的方式来实现持续性发展的目标。在一般定义的灾备等级中,第3级以上的级别针对rpo、rto这两个指标开始有了实际的意义,也就是我们说的构建灾难备份系统。有些企业认为,建立远程备份系统就是建立了数据级灾备,也就是达到了灾备的第一阶段要求,这实际上是很大的误解。先不说备份出来的数据格式已不是复制出来的格式,恢复时必须反向转换,备份的很长的周期性间隔也无法达到一般的利用灾备中心建立应急反应体系的要求(rpo超过了24小时对于多数企业而言已经没有太大意义),而且,备份时大量的远程传输带宽的占用(或本地备份汽车远程运输的资源消耗),使得传输根本无法满足企业数据和业务增长的要求,传输成本奇高。因而,我们并没有看到多少企业真正采用这种方式建立灾难备份中心,并能够有效地利用和管理。

我们逐渐看到,至少是数据复制体系或远程的电子传输以上的灾备技术手段,才是建立灾难备份中心的建设方案的技术手段可行性范畴。

下面我们谈谈真正的灾备体系的可用技术手段,也就是容灾方案讨论的核心问题。

灾备系统的容灾技术是一个灾备系统建立的最为重要的考虑因素之一,这一因素的考虑是否完善,甚至于决定了灾备系统的成败。因此,我们可以看到许多企业在下达了灾备系统建设任务之后,却迟迟无法在技术方案的论证环节上达到统一,换句话说,找到一个完美的技术路线是这么的艰难。这里我们进行一下分析:

在构建容灾备份系统时,我们首先考虑的应该是远程数据保护的机制,一般而言就是结合实际情况选择合理的数据复制技术。而选择合理的数据复制技术时主要考虑以下因素:

(1)灾难承受程度:明确计算机系统需要承受的灾难类型,系统故障、通信故障、长时间断电、火灾及地震等各种意外情况所采取的备份、保护方案不尽相同。现在人们经常将灾难分为自然灾难和渐进性灾难(如人为的失误型故障、******、断点等),实现的技术保护手段也开始有所区别。

(2)业务影响程度:必须明确当计算机系统发生意外无法工作时,导致业务停顿所造成的损失程度,也就是定义用户对于计算机系统发生故障的最大容忍时间。这是设计容灾备份方案的重要技术指标。

(3)数据保护程度:是否要求数据库可以恢复所有提交的交易并且要求实时同步数据也就是数据的连续性和一致性,决定了容灾备份方案规模和复杂程度的重要依据。

(4)最为容易忽略的一点,容灾的技术手段是否适合于现有的所有参与系统,对于生产系统的影响是否足够的小。这一点,成为目前容灾体系技术路线的讨论中最为困扰各方的一个因素。混合系统容灾、开放设备的选择常常使得用户的理想与技术现实产生鸿沟。

容灾的多种技术方式通过各类报刊和厂商的宣传,已经被很多人所认知,各种技术近些年也在不断融合,一些融合型技术也在不断涌现。我们今天不做重点论述,只再简单归纳一下常见的技术路线:

1) 基于应用的容灾备份技术

基于应用的容灾备份技术是由应用软件来实现数据的复制和同步,当主中心失效时,容灾备份中心的应用软件系统恢复运行,接管主中心的业务。

这种方式下,应用软件实现一定程度的修改,复杂性加深。并且由应用软件来实现数据的复制和同步会对整个业务系统的性能造成较大的影响。

这种方式往往是应用开发的更广泛范畴,需要在应用开发初期进入开发的概要设计和需求目标。

2) 基于数据库的容灾备份技术

目前在一些主流数据库系统的生产系统中广泛采用。这是利用数据库复制系统或一些专用的库复制系统,基于数据库日志复制实现主、备用系统的数据库的数据同步,即是将主用系统数据库操作log复制到备用系统数据库中执行,实现二者数据的一致性。基于数据库的复制方式可分为实时复制、定时复制和存储转发复制,并且在复制过程中,还有自动冲突检测和解决的手段,以保证数据一致性不受破坏。

这种方式对于主机系统和存储设备都相当开放,也就是说,备份中心的建设是一个开放设备的系统。主要的要求在于数据库的一致性,数据的传输和复制一般采用tcp/ip的网络协议。

3) 基于主机的容灾备份技术

这种方式主要是采用主机上的卷复制技术,通过ip网络实现远程的卷复制。

采用这种方式时,主中心和备份中心的距离不受限制,对磁盘阵列等设备要求不太高,由于是卷复制,对于数据库具有通用的支持性。但这种方式会对主中心的主机系统带来一定的负担,而且对于备份中心的主机系统具有一致性要求。在一些混合系统中,容灾中心提供灾备服务有一定制约。

4) 基于智能存贮系统的容灾备份技术

也就是常说的磁盘拷贝技术。常用于光纤直连的连接方式,同城容灾较多。磁盘阵列将磁盘远程复制功能的处理负荷从主机转移到智能磁盘控制器上。这种方式下数据复制软件运行在存贮系统内,比较容易实现主中心和容灾备份中心的操作系统、数据库、系统库和目录的实时拷贝维护能力。远程备份系统的启动、运行恢复相对比较简单快捷。

这种方式在早期的单存储系统容灾和点到点容灾系统中比较常见,而且,由于对于主机系统的约束较小,相对构建的改动也比较小,因而,一些系统建立灾难备份系统的方案选择,比较青睐这种模式。

如果采用光纤连接,这种方式只能用于同城方式,如果灾备中心的建立在异地,则需要协议的转换设备才能实现基于ip的远程传输,这在成本考虑中也必须是组成部分之一。该方案的开放性比较差,不同厂家的存储设备一般不能配合使用,不太利于投资保护、而且对于混合系统的灾备服务仍然会出现难解的瓶颈。

目前,大部分的中高端存储阵列都已经具有了这一能力,而且在复制技术上也在不断演变和成熟化。

5) 虚拟存储容灾技术

鉴于存储系统在异构环境和平台的种种制约,本世纪初,国际上,新兴起了虚拟存储的理论,而且日臻成熟。虚拟存储的技术主要采用专门设立存储服务层设备,对于所有连接后端的存储数据实现专门的存储服务,如异构存储设备之间的数据倒送、存储的数据的连续时间点快照和快速读取、存储数据的存档保护、远程备份中心的数据专用复制服务甚至于利用磁盘设备虚拟磁带库的仿真接口,从功能角度说,虚拟存储技术解决了存储的开放性连接问 题,容灾的混合系统灾备服务问题,灾备数据的快速挖掘和多时间点利用问题,故障时数据的一致性问题,将系统的故障恢复时间大大提升(分钟级别)。虚拟存储技术所支持的存储接口也包含了fc、iscsi、scsi等,适用环境相当广泛。到目前为止,这一技术在存储的服务能力上是最为强大的。目前,国际上正在兴起的cdp(数据连续性保护技术)中,虚拟存储技术也是实现最为全面的技术。一般在复杂的生产系统、办公系统、管理系统实现统一的灾备服务的要求下,虚拟技术往往获得良好的效果。国际上,虚拟存储技术以美国飞康公司为代表,此外,除了专业的虚拟软件厂商之外,目前,一些存储设备的厂商也纷纷推出支持虚拟化的产品,可见其发展势头。

虚拟存储技术在容灾领域的运用时间还不长,一些人们还在观望其实际使用的性能状况。

以上,是容灾技术路线的常见表现形式。实际上,现在数据备份和连续复制的技术,已经产生了融合技术,这就是cdp的数据连续性保护技术,这一技术的出现,真正使得数据的点备份变成了连续跟踪数据变化的多点精细跟踪技术,使得传统意义的备份系统已经淡化,而快速恢复以及任意时间点恢复已经成为现实,试想,系统完全损坏后(包括硬盘),几分钟内,系统又通过远程引导和恢复了起来,这在传统的恢复技术中是不可想象的,实在是人们办公、生产时的福音

cdp技术的实现,真正意义使得数据复制和备份具有了高性能的rpo和rto的能力,克服渐进式的灾难具有了杀手锏。这一技术将在不远的将来对于容灾技术的架构产生又一次修正。

总之,建立强大的容灾系统,需要我们善于理性分析、跟踪技术的脉搏,与时俱进。拨开迷雾,康庄之路在眼前。紧跟存储脉搏,成功不再遥远。