灾难 disaster

由于人为或自然的原因,造成信息系统运行严重故障或瘫痪,使信息系统支持的业务功能停顿或服务水平不可接受、达到特定的时间的突发性事件。通常导致信息系统需要切换到灾难备份中心运行。

灾难恢复 disaster recovery

为了将信息系统从灾难造成的故障或瘫痪状态恢复到可正常运行状态、并将其支持的业务功能从灾难造成的不正常状态恢复到可接受状态,而设计的活动和流程。

灾难恢复规划 disaster recover planning

DRP

为了减少灾难带来的损失和保证信息系统所支持的关键业务功能在灾难发生后能及时恢复和继续运作所做的事前计划和安排。

业务影响分析 business impact analysis

BIA

分析业务功能及其相关信息系统资源、评估特定灾难对各种业务功能的影响的过程。

恢复时间目标 recovery time objective

RTO

灾难发生后,信息系统或业务功能从停顿到必须恢复的时间要求。

恢复点目标 recovery point objective

RPO

灾难发生后,系统和数据必须恢复到的时间点要求。

关键业务功能 critical business functions

如果中断一定时间,将显著影响组织运作的服务或职能。

主系统 primary system

生产系统 production system

正常情况下支持组织日常运作的信息系统。包括主数据、主数据处理系统和主网络。

主中心 primary center

主站点 primary site

生产中心 production center

主系统所在的数据中心。

灾难备份中心 backup center for disaster recovery

备用站点 alternate site

用于灾难发生后接替主系统进行数据处理和支持关键业务功能运作的场所。包括备用数据处理中心、备用的工作环境、备用生活设施和技术支持及运行管理人员。

灾难备份 backup for disaster recovery

为了灾难恢复而对数据、数据处理系统、网络系统、基础设施、技术支持能力和运行管理能力进行备份的过程。

灾难备份系统 backup system for disaster recovery

用于灾难恢复目的,由数据备份系统、备用数据处理系统和备用的网络系统组成的信息系统。

数据备份策略 data backup strategy

为了达到数据恢复和重建目标所确定的备份步骤和行为,通过确定备份时间、技术、介质和场外存放方式,以保证达到恢复时间目标和恢复点目标。

灾难恢复预案 disaster recovery plan

定义信息系统灾难恢复过程中所需的任务、行动、数据和资源的文件。用于指导相关人员在预定的灾难恢复目标内恢复信息系统支持的关键业务功能。

演练 exercise

演习 drill

为训练人员和提高灾难恢复能力而根据灾难恢复预案进行活动的过程。包括桌面演练、模拟演练、操作演练和灾难演习等。

场外存放 offsite storage

将存储介质存放到离主中心有一定安全距离的物理地点的过程。

概述

数据容灾备份的必要性

所谓容灾, 就是为了防范由于自然灾害、社会动乱和人为破坏造成的企事业单位信息系统数据损失的一项系统工程。面对灾难, 首先要区分灾难的种类,然后有针对性地找出解决方案,实现更有效的数据恢复,保证数据安全。灾难并不是常常会发生,但有备无患,万一灾难降临,如果我们有相应的容灾措施,就能把灾难的损失降到可以承受的范围。

正确认识容灾

业务连续性(BC)与数据安全性是密切相关的,数据安全性是实现业务连续性的基础。统计结果表明,在过去5年内,全球93%的公司有过丢失重要数据而造成业务损失的经历,72% 的业务没有可靠的BC计划,只有18%的最终用户的数据得到了可靠保护。许多企事业单位虽然已经认识到信息安全的重要性,但没有实施保证信息安全的行动,这其中的原因 是多方面的,最主要的一个就是在如何建立容灾系统的问题上存在种种疑惑。我国企事业单位在实施容灾工程方面尚处于初级阶段,某些已经建成并投入使用的容灾系统,只能实现单一业务的数据容灾,而且存在总体投入成本高、投资回报率低、容灾数据的可恢复性难以验证、需要购买厂商的技术支持、管理成本居高不下等问题。以上种种因素使得部分准备建立容灾系统的用户裹足不前。

业务系统风险分析、 容灾系统对业务系统的影响分析和 投资效益分析, 风险分析是检查那些可能造成数据损失或者系统瘫痪的外在和内在因素。既然是容灾,必须充分考虑业务系统所在地的自然环境,针对可能发生的灾难,准备相应的容灾对策。容灾系统肯定对业务系统的性能有一定影响,因此,对于那些高负荷运行的业务系统必须认真计算。建立容灾系统,除了需要购买必要的设备外,还要考虑系统维护管理成本和使用通信线路的费用。

容灾系统的主要设计指标

要建设容灾工程必须提出容灾系统设计指标,作为衡量和选择容灾解决方案的参数。目前,国际上通用的容灾系统的评审标准为Share78:

l 备份/恢复的范围

l 灾难恢复计划的状态

l 业务中心与容灾中心之间的距离

l 业务中心与容灾中心之间如何相互连接

l 数据是怎样在两个中心之间传送的

l 允许有多少数据被丢失

l 怎样保证更新的数据在容灾中心被更新

l 容灾中心可以开始容灾进程的能力

Share78只是建立容灾系统的一种评审标准,在设计容灾系统时,还需要提供更加具体的设计指标。建立容灾系统的最终目的,是为了在灾难发生后能够以最快的速度恢复数据服务,所以,容灾中心的设计指标主要与容灾系统的数据恢复能力有关。最常见的设计指标有:RTO 和RPO。

RTO(Recovery Time Objective)代表容灾系统在灾难发生后数据或者系统恢复所用的时间。RPO(Recovery Point Objective)代表灾难发生时已经备份的数据与生产中心数据的时间差。此外,设计容灾系统还需要考虑选择容灾备份中心地点。数据库容灾要保证备份数据库的一致性,最好能够对备份数据库进行对生产系统无干扰的实时检验。通常情况下,容灾系统投资较大,使用概率较低,因此,需要对总体投入成本(TCO)和投资回报率(ROI)进行认真的分析和计算。

RPO可简单的描述为企业能容忍的最大数据丢失量,为了更好的理解,可以想一下传统数据保护会产生什么后果,一般备份都是一天做一次,通常是在晚上,如果第二天出现错误,那从备份完成后到错误出现时所写入的数据都无法挽回了,这期间没有备份,数据就丢失了!如果错误出现在一天结束时,那一天的数据都丢失了,这种情况下,RPO就是24小时。

sqlserver容灾热备份 mysql容灾备份_数据

 

     为了改进RPO,数据必须进行更频繁的保护,大多数情况下,增加备份的频率是不现实的原因有:

                    1)对应用的效率影响太大,在应用的高峰不能进行备份;

                    2)备份数据要花很长时间。

     为了改进RPO,需要有新的方法,这种方法就是恢复管理,用连续复制和快照技术能有效地改进RPO。

     RTO可简单的描述为企业能容忍的恢复时间,在传统的数据保护中,备份数据是不能立即使用的,必须先恢复。对象级别的恢复功能可以有效恢复单个的目标,如一个文件或一封邮件,甚至是许多文件和邮件的集合。然而,恢复整个数据库和海量数据时仍需要时间,通常恢复一个大系统需要几天时间。

     从经济角度考虑,最佳的容灾解决方案不一定是性能最好的容灾解决方案,容灾系统的总体投入TCO和投资回报ROI,对于许多用户来说是十分重要的设计指标。TCO包括建立系统、维护系统和扩充系统的总投入,由于容灾系统的启用概率很低,新技术的发展和新产品的性能价格比的提高,必定造成容灾设备的贬值。所以,对于容灾系统TCO越高,ROI越低。

容灾技术分类

同步复制异步复制

同步复制是指向业务系统存储数据和向备份系统存储数据同时进行,只有在两地数据存储操作完成后,才能够进行下一个数据存储操作,因此,同步复制的IO操作时间以最长的IO用时为衡量尺度。

异步复制是指对业务系统的数据存储操作独立进行,对备份系统的数据存储操作按照排队方式进行,业务系统的IO操作不受异地备份系统的IO操作影响。为了保证数据传输排队的次序,异步复制需要一些特殊技术的支持。

源数据目标数据

源数据,备份中心的数据是 目标数据。在双工模式下,A业务系统可以存储B业务系统的目标数据,反之亦然。在多向复制模式下,源数据可以有多个目标数据作为备份。在集中模式下,容灾备份中心可以存储多个业务系统复制来的目标数据。

冷容灾中心热容灾中心

冷容灾中心的目标数据只能在数据恢复时使用。 热容灾中心的目标数据在一定条件下可以离线使用。对于数据库来说,热容灾中心的数据库时刻处于打开状态。

应用于容灾工程的技术统称为容灾技术。对于各单位不同的IT业务系统,应该选择不同的容灾技术。每种容灾技术都有自身的技术特点和某些应用局限性。通过对容灾技术的分类,可以帮助用户在容灾工程设计中选择最适用的容灾解决方案。

备份/恢复

     技术最简单和投资最少的容灾解决方案是基于数据备份与恢复技术的解决方案。只要对业务系统每日备份的数据制作一个相同的拷贝,通过交通工具或网络传送到容灾备份中心保存起来,这样不需要购买大量的设备和软件,只需要对备份数据的介质进行有效管理。如果在容灾中心建立备用业务系统,当业务系统遇到灾难破坏后,备用中心能够很快投入工作,不难想象,这种容灾技术的RPO是最差的,但对特定的业务系统不失为一个高性价比的容灾解决方案。

快照

COW(Copy-on-Write)和 快照克隆。

COW比快照克隆效率更高,因为它不要创建数据副本,而只需创建一个指向数据的指针集合,创建指针集合只是瞬间的过程,对系统影响不大,可以创建多个时间点的快照数据副本,就算间隔时间很近也不会危及系统的效率。当一个新的数据块写到被COW保护的数据上时,COW技术会在写入之前把原来的数据复制一份保护起来,COW功能对磁盘很有效,因为它仅对变化的数据进行复制,而不是对整个数据进行复制,也许生产系统中80%的数据是不需要变化的。

然而,从COW恢复数据所花的时间比从快照克隆中恢复要长,因为COW恢复时需要通过读入指针所指的数据和变化的数据来重建原始数据集合。快照克隆重新创建了整个数据副本,其过程花的时间比COW要长,但比传统的备份仍要快很多,由于快照克隆的数据映像是在线的,可立即使用,能很有效的缩短恢复时间。

快照技术可以利用存储设备和安装在主机中的软件来实现。

连续复制

     连续俘获复制(Continuous-Capture Replication)技术对改进RPO是一个很好的选项,能使RPO连续,当变化的数据被写到生产数据的磁盘,连续俘获复制技术会复制I/O流,然后通过网络传送到另一目标系统,I/O流会在目标系统被回放,产生第二份数据副本。复制技术可以同步或异步,可保持复制的生产数据副本持续有效。就像镜像快照一样,复制的生产数据副本是在线的,当出现错误时能立即使它有效,可极大缩短恢复时间。

于是复制生产数据的任何变化到第二个数据副本,也包括病毒***或其他事件造成的数据破坏。因此, 把连续复制和快照结合起来保护在线数据将是非常有益的,确保有另一个数据副本恢复到病毒***前的一个时间点,这意味连续复制不能提供连续的RPO来避免所有类型的错误。

存储系统级别的复制

    这种复制是在存储系统上完成的,一般使用安装在存储子系统上的数据复制软件,保持业务系统的存储数据逻辑卷与备份系统存储数据逻辑卷的一致性;存储子系统的容灾技术可以选择同步复制或者异步复制方式。

卷级别的软件复制

     基于对主机卷进行管理的软件容灾技术与存储子系统的类型无关,与业务系统的服务器平台有关。主机卷管理软件的容灾技术同样可以选择同步或者异步复制方式,通过卷管理软件的远程数据复制的扩展功能,可以把业务系统的源数据复制到备份中心指定的逻辑卷上。

连续数据复制软件

基于数据库应用

数据库容灾技术采用异步传输方式,通过IP网络传输,支持一个业务中心向多个备份中心的数据库进行复制的要求,或者多个业务中心向一个备份中心复制的要求。在容灾过程中,业务中心和备份中心的数据库都处于打开状态,所以, 数据库容灾技术属于热容灾方式。数据库容灾技术与存储子系统的类型、业务系统服务器的平台无关,与数据库的版本有一定关系,数据库容灾解决方案具有较好的使用灵活性。数据库容灾技术只能作为数据库应用的容灾解决方案,如果需要其他非结构数据的容灾,还需要其他容灾技术作为补充。

在选择容灾技术时,需要考虑业务系统的类型,是单业务系统还是多业务系统?是数据库应用还是非结构化数据?是数据容灾还是业务系统容灾?用户可以根据要求,选择一种主要的容灾技术作为容灾解决方案的基础,辅之其它容灾技术满足特定的要求。下图是几种技术的特征比较:

sqlserver容灾热备份 mysql容灾备份_数据_02

  灾难备份等级划分

     一个完整的灾难备份方案的设计基于灾难备份需求分析所得出的各业务系统灾难恢复目标,它可能涉及多个级别的应用,并且需要考虑技术手段、投资成本、管理方式等多方面因素。参照国际灾难备份行业的通行灾难备份等级划分原则,灾难备份系统从低到高可划分为如下七个等级:
等级零:无异地备份。没有在异地保存备份数据,未制定灾难恢复计划,不具备灾难恢复能力。
等级一:备份介质异地存放。对关键数据进行备份并存放至异地,没有可用的备份中心及备份数据处理系统、备份网络通信系统,未制定灾难恢复计划。
等级二:备份介质异地存放及备用场地。对关键数据进行备份并存放至异地,并制定相应的灾难恢复计划。具备备用的办公及计算机场地,一旦灾难发生,需要重新调配数据处理系统及网络通信系统资源,利用异地备份数据恢复关键业务系统运行。
等级三:备份介质异地存放及备份中心。对关键数据进行备份并存放至异地,并制定相应的灾难恢复计划。具备可用的备份中心并配备部分数据处理系统及网络通信系统。一旦灾难发生,利用备份中心已有资源及异地备份数据恢复关键业务系统运行。
等级四:定时数据备份及备份中心。在备份介质异地存放的基础上,利用通信网络将部分关键数据定时批量传送至异地,并制定相应的灾难恢复计划。具备可用的备份中心并配备部分数据处理系统及网络通信系统。一旦灾难发生,利用备份中心已有资源及备份数据恢复关键业务系统运行。
等级五:实时数据备份及备份中心。利用通信网络将关键数据实时备份至备份中心,并制定相应的灾难恢复计划;具备连续运行的备份中心和就绪的备份数据处理系统及网络通信系统。一旦灾难发生,可在备份中心利用实时备份数据恢复关键业务系统运行。
等级六:零数据丢失。利用通信网络将关键数据同步镜像至备份中心,实现零数据丢失,并制定相应的灾难恢复计划。具备连续运行的备份中心和就绪的备份数据处理系统及网络通信系统,且具备完全的网络切换能力。一旦灾难发生,可在零数据丢失的基础上恢复关键业务系统运行。