要建设容灾系统,就必须提出相应 的设计指标,以此作为衡量和选择容灾解决方案的参数。
目前,国际上通用的容灾系统的评审标准为Share 78,主要包括以下内容。
●备份/恢复的范围
●灾难恢复计划的状态
●业务中心与容灾中心之间的距离
●业务中心与容灾中心之间如何连接
●数据是怎样在两个中心之间传送的
●允许有多少数据丢失
●保证更新的数据在容灾中心被更新
●容灾中心可以开始容灾进程的能力
Share 78只是建立容灾系统的一种评审标准,在设计容灾系统时,还需要提供更加具体的设计指标。建立容灾系统的最终目的,是为了在灾难发生后能够以最快速度恢复数据服务,所以容灾中心的设计指标主要与容灾系统的数据恢复能力有关。最常见的设计指标有RTO (Recovery Time Objective)和RPO(Recovery Point Objective)。
RTO与RPO是关键
RTO是反映业务恢复及时性的指标,表示业务从中断到恢复正常所需的时间。RTO值越小,代表容灾系统的数据恢复能力越强。各种容灾解决方案的RTO有较大差别,基于光通道技术的同步数据复制,配合异地备用的业务系统和跨业务中心与备份中心的高可用管理,这种容灾解决方案具有最小的RTO。容灾系统为获得最小的RTO,需要投入大量资金。
RPO是反映恢复数据完整性的指标,在同步数据复制方式下,RPO等于数据传输时延的时间;在异步数据复制方式下,RPO基本为异步传输数据排队的时间。在实际应用中,考虑到数据传输因素,业务数据库与容灾备份数据库的一致性(SCN)是不相同的,RPO表示业务数据库与容灾备份数据库的SCN的时间差。发生灾难后,启动容灾系统完成数据恢复,RPO就是新恢复业务系统的数据损失量。不同容灾方案的RTO和RPO是不相同的。
综合考虑技术指标
设计容灾系统不能只看RTO和RPO,对于不同的业务系统和用户特殊的要求,其它一些指标有可能成为选择容灾解决方案的主要因素。例如,某些地区为了防范一些特定自然灾害的风险,要求容灾备份中心与业务中心保持足够的距离,在这种情况下,容灾备份中心与业务中心的距离要求就是容灾系统的重要指标。
大部分业务系统都是数据库应用结构,业务系统容灾实际上就是数据库容灾。实现数据库容灾的难度在于始终要保证数据库的一致性。为了保证容灾备份数据库随时能够打开运行,必须对容灾备份数据库进行可用性检验。由于大部分容灾技术都是采用逻辑卷数据复制方式,难以保证容灾备份数据库在所有检验时间点的一致性,有可能出现单次检验失败的情况,不得不进行重复检验。把容灾备份数据库的检验成功率作为容灾系统的设计指标是必要的。
通信网络是容灾系统的组成部分,通信线路的质量也是容灾系统的性能指标之一,其中包括网络的数据传输带宽、网络传输通道的冗余和网络服务商的服务水平(网络年中断率)。如果容灾系统使用的通信网络是确定的,为了比较不同容灾解决方案,可以用单位存储容量的数据库在同一通信网络上的数据完全恢复时间作为一项设计指标。
如果要求容灾系统具有防范各种灾难的能力,特别是具备抵御人为破坏的能力,则需要把容灾系统的数据备份作为一个设计指标。这是因为,所有通过网络对业务中心的人为破坏和管理人员的误操作同样会影响到容灾备份中心。只有采用离线数据备份的方法,才能够防范人为的灾难。
最佳不等于最好
从经济角度考虑,最佳的容灾解决方案不一定是性能最好的容灾解决方案。容灾系统的总体投入(TCO)和投资回报(ROI)对于许多用户来说是十分重要的设计指标。TCO包括建立系统、维护系统和扩充系统的总投入。由于容灾系统的启用概率很低,新技术的发展和新产品性价比的提高必定造成容灾设备的贬值。所以,对于容灾系统来说,TCO越高,ROI越低。
IT系统在升级过程中,会采用新技术和新产品,而业务系统的任何变动都会引起容灾系统相应的变化,势必加大对系统升级的投入。要想把这种变化的影响减到最小,容灾系统的灵活性和兼容性也应该是十分重要的指标。
综上所述,进行容灾系统设计时,必须根据用户业务系统的使用情况,并综合考虑地理环境、网络条件、投资规模、业务系统长远发展规划等各种因素,制定合理、可行的容灾系统设计指标。
(E5) 不同容灾解决方案的RPO与RTO
参考资料: http://www.360doc.com/content/16/1218/22/39197078_615851313.shtml