一、备份容灾概况
RPO和RTO
RPO和RTO是业内很重要的两个概念,分别是恢复点目标和恢复时间目标,
RPO是指备份时间点到发生故障或灾难时允许的最大数据丢失量(这里的备份时间点是指备份完成的时间点)
RTO是指发生灾难时容许的最长停机时间。从上图中可以看到从发生故障和灾难到启动还原到启动恢复在到启动应用程序,这段时间加起来就是RTO的整个时间。
(RTO+RPO就是用户关心的一次故障带来的损失)
备份窗口:一次备份所需要的时间,备份窗口和所要备份的数据量和性能息息相关,备份窗口越小越好,避免备份任务在没有执行完成发生故障使本次备份任务失败
数据保护的挑战
用户的一个需求是对RTO和RPO的需求
RTO和RPO是用户的需求,这些值越小越好,最理想状态是零,当面临RTO和RPO以及连续性需求的时候应该和建设成本、维护难度和可用性等方面权衡,
用户另一个需求是业务持续可用的需求,系统的高可用不间断运行和实现灾难恢复,当前应用比较多的是双机环境,它可以实现系统高可用性和有条件的系统不间断运行,但是不能实现灾难恢复。
容灾的分类
备份是容灾的基础,但是容灾不仅仅是备份,容灾可以分为数据容灾,应用容灾和业务容灾
数据容灾:主要以备份为主,关注点是数据
应用容灾:指的是应用的连续性即不间断运行,一般常见的是做一个一模一样的系统来接管,具体的有实时复制应用接管和灾难恢复等等
业务容灾:最高级别,超出了IT的范畴,还有业务级别和非IT方面的冗余,比如办公场地,备用的业务团队,这个级别是最完善的级别也是投入最大的。
容灾保护等级
我们国家有一个灾难恢复规范的等级,从图中可以看到,一共六级,。所有这些等级有一个特点就是全部需要将备份的数据场外存放,容灾,同一地点存放就失去意义了;还有都有灾难恢复预案。不同的等级具体的要求有很大的不同,比如,一级和二级基本是人为的将数据异地运输存放的,三级和四级是关键数据异地传输容灾,到了五级和六级,就需要有实时复制传输,缩短RPO和RTO,那五级和六级有什么区别呢?第一,5级还是关心在关键数据和应用,6级就要求全面了,还有6级要求完全同步、实时监控和切换等能力。有些人就可能疑惑了,6级才要求自动接管和监控啊,那为什么很多容灾都只宣称5级要求呢?到目前位置还没有完全匹配的技术方案,一方面是规范的抽象性,另一方面是容灾不仅仅是技术方面的东西。
传统高可用性(HA)方案的挑战
有的服务器有双机了,是不是就安全了呢?事实上,双机和集群确实能够保证系统的高可用,就是一个机器坏了,另一个机器就可以用,
但是大多数的双机方案使用共享磁盘的方式,如果存储损坏系统将无法使用
另外一个就是逻辑错误没有办法恢复,无法保障数据的安全性和可回溯性,共用存储上的一个文件或者数据库上的一条记录别删除或者出现错误,无法恢复先前的状态。
另外就是无法异地容灾。
当然,有钱的公司可以考虑高端的容灾方案,比如基于存储复制的容灾,但是这些解决方案的特点也非常明显,不是为中低端用户打造的方案,复杂、成本高昂等等
传统容灾方案的特点
传统容灾方案有以下几个特点,第一,方案复杂,建设成本比较高,需要专用的设备和存储,而且这些设备大多是由不同厂商所提供,他们之间必然会存在兼容性问题,适应性问题,同时给维护带来很多不确定因素;
第二个就是异地容灾的时候对网络链路要求比较高,我们容灾方案在异地容灾是应用了很多关键技术,比如重复数据删除、delta恢复等,这些技术可以大大降低远程数据传输的数据量,从而有效的解决异地容灾的网络瓶颈。
传统容灾最后一个特点就是保护方案的不全面,只是单纯的对数据进行容灾,没有与备份和虚拟化结合,缺乏资源的有效整合方案。
二、CDP技术应用容灾简介
前面了解了用户对备份容灾需求,又了解了传统高可用、传统容灾的特点,那么爱数是如何根据客户的需求设计容灾方案,爱数的容灾基于CDP,既持续数据保护技术
CDP技术原理
生产服务器的客户端实时监控基于数据块级的数据变化,实时的复制到CDP的日志卷,同时会分发给容灾服务器,CDP日志卷除了记录每一次变化的数据块还会记录变化的时间点,可以在以后恢复到任意数据变化的时间,对数据完全保护
实时复制模块首先是通过正向持续复制,将生产服务器上应用系统的数据库变化复制到介质服务器,介质服务器保存数据到CDP日志卷,然后介质服务器再将数据分发到对应的容灾服务器。
基于CDP技术的基本核心
实时复制,基于CDP,生产服务器的任何数据变化都可以复制到备用服务区,
灾难恢复,发生灾难,一方面需要应用接管,另一方面需要对主服务器进行恢复,
第三,介质同步,容灾可以应用与远程多站点的容灾。
产品模块-管理控制台
整个技术中的产品模块,第一个是管理控制台,他相当于一个心脏,可以做的任务有:实时复制任务、灾难恢复任务、时间点恢复、灾难恢复接管、介质同步策略等所有的操作都是基于管理控制台。
产品模块-客户端
对于客户端程序,它的作用就是监控、复制、恢复等等。
产品模块-介质服务器
另外有一个核心就是介质服务器,它是实时数据的存放和分发者,包括介质同步用于异地容灾等等
支持的平台和功能范围
优点
内置应用容灾功能
应用容灾解决方案的整体性,它巧妙的融合了实时复制、灾难接管与切换、灾难恢复、重复数据删除、异地同步容灾和增量恢复,提供了新一代的智量级容灾技术方案
基于虚拟化平台的应用容灾
为用户节约成本,有一对一的容灾也可以做到一对多的容灾
优化的异地容灾方案
整个技术方案中,采用了介质同步和重复数据删除,一方面可以做到多点容灾,另方面可以节省存储,优化容灾的网络传输。
优化的复制容灾引擎
三、关键技术
数据库实时复制技术
数据库实时复制技术基于数据分离器(Data Splitter)来实现的。数据分离器是一个系统驱动程序,运行在生产服务器和容灾服务器上,其主要功能是将数据库变化的数据分离,以便变化数据能够同时写入生产存储和复制到介质服务器端。
数据库一致性技术
这个方面业界主要有两种方案,一种是前摄式的,就是通过数据库本身的API发起操作,即当数据库中的数据发生变化时即可以进行CDP操作,爱数是通过系统I/O事务相关性分析的,叫做启发式一致性,当数据库的日志卷文件发生变化时,从系统IO中捕捉变化并进行CDP操作。
接管数据一致性技术
第三个关键技术与灾难恢复相关,就是接管期间,备用服务器产生的数据如何反向的同步回去。
重复数据删除技术
第四个是重复数据删除,对于介质服务器的存储和异地同步具有非常大的价值,一方面可以减少存储空间,另一方面可以减少异地同步传输的数据量。
Delta恢复技术
第五个技术是增量恢复技术,是基于重复数据删除技术,根据重复数据的索引(指纹识别)是否有相同的数据存在,存在就不重复传输,恢复的时候大大减少了恢复的数据量从而减少了带宽的利用
用于级联复制的介质同步技术
第六个技术是级联复制的介质同步技术,重复数据删除后的新数据块,首先复制到备份存储柜A的CDP日志卷,然后通过介质同步功能将备份存储柜A的数据远程同步到存储柜B上。
四、容灾应用部署方案
主机到主机的部署方案
流程:
将存储柜和应用服务器通过网络进行连接,配置存储柜的虚拟化平台,将生产服务器通过P2V工具迁移到存储柜的虚拟化平台,在存储柜上配置实时复制任务,生产服务器上的数据变化会实时的复制到CDP日志卷,配置灾难恢复任务,至此容灾部署操作完成,业务访问正常情况下,访问生产服务器当生产服务器故障时虚拟化容灾平台接管生产服务器任务,业务访问容灾服务器,生产服务器故障修复后首先通过CDP日志卷恢复生产服务器到故障时间点,然后将容灾服务器新增加的数据反向复制到介质服务器,之后又介质服务器分发到生产服务器,业务访问重新访问生产服务器
带外旁路的部署方案
主机到主机的部署主要是一对一的容灾,而带外旁路的部署可以在不影响现有网络的情况下实现一对一和一对多的容灾
流程:
1.在本地局域网中部署一台爱数备份存储柜A
2.在远程容灾中心部署一台爱数备份存储柜B
3.将备份存储柜B的介质服务器添加到备份存储柜A中
4.在生产服务器上安装备份存储柜客户端
5.在备份存储柜A上配置虚拟机,将生产服务器系统通过P2V迁移到备份存储柜A中虚拟化的容灾服务器
6.如果选择在异地部署应用容灾方案,将备份存储柜A中已配置好的容灾服务器克隆到备份存储柜B中
7.在备份存储柜A中配置实时复制任务,将数据从生产服务器复制到备份存储柜A的日志卷
8.在备份存储柜A中配置灾难恢复任务,建立生产服务器与备份存储柜A中虚拟化容灾服务器之间的容灾接管关系
五、总结
1.应用容灾技术的基础是持续数据保护CDP,但是整体涵盖了实时复制、灾难恢复(接管与恢复)、介质同步(多点容灾)
2.整体性是应用容灾解决方案的核心,他巧妙的融合了实时复制、灾难接管与切换、灾难恢复、重复数据删除、异地同步和增量恢复,提供了新一代的智能级容灾技术方案。