一、备份的概念
备份顾名思义,就是将数据以某种形式保存下来,备份的根本目的在于恢复,在这些数据丢失、毁坏和受到威胁的时候,使用数据的备份来恢复数据。虽然备份的定义可能很简单,不过具体实施存储系统的备份却可能是一份艰巨的任务,其中包含了许多可以预见的以及不易预见的需要考虑的因素。
二、备份与拷贝、归档的区别
备份不能仅仅通过拷贝完成,因为拷贝不能留下系统的注册表等信息;而且也不能留下历史记录保存下来,以做追踪;当数据量很大时,手工的拷贝工作又是何其麻烦。备份=拷贝+管理。管理包括备份的可计划性、磁带机的自动化操作、历史记录的保存以及日志记录等等。正如生命周期理论将在线数据分级为在线和近线数据一样,离线数据亦可分为备份与存档数据,以降低投资和运维成本。
存档的目的是将需要长期备查或转移到异地保存/恢复的数据存放到可移动存储介质上。严格意义上讲,存档的目的不是为了保障数据安全,而只是为了实现数据仓储。如果说备份相当于桌头的字典,工作时会经常翻用,存档则好像日常工作中生成的一些具长期保存价值的文字资料,被转移到书架上或档案馆里备查。
三、常规备份的实现方式
通常一套完整的备份系统包含备份软件、磁带机/磁带库、和备份服务器,具体的备份策略的制定、备份介质的管理以及一些扩展功能的实现,都是由备份软件来最终完成的。在备份服务器上安装备份软件的服务器端,在应用服务器端安装备份软件的客户端代理,如果是数据库应用还需要相应的数据库接口程序,客户端代理软件和服务器端软件协调工作,按照预先制定的备份策略自动或手动的将数据备份到磁带上。然而一个具有一定规模的数据中心的数据备份要涉及到多种UNIX平台和不同的数据库类型,可以想象每天的备份工作对于管理员来说都是一个挑战。
备份策略制定是备份工作的重要部分。一般来说需要备份的数据存在一个2/8原则,即20%的数据被更新的概率是80%。这个原则告诉我们,每次备份都完整的复制所有数据是一种非常不合理的做法。事实上,真实环境中的备份工作往往是基于一次完全备份之后的增量或差量备份。
完全备份很好理解,即把所有数据进行一次完整的备份,当进行恢复的时候只需要一盘磁带;
增量备份是只有那些在上次完全备份或者增量备份后被修改了的文件才会被备份,如下图,优点是备份数据量小,需要的时间短,缺点是恢复的时候需要多盘磁带,出问题的风险较大,
差量备份是备份那些自从上次完全备份之后被修改过的文件,如下图,因此从差量备份中恢复速度是很快的,因为只需要两份磁带(最后一次完全备份和最后一次差量备份),缺点是每次备份需要的时间较长。
备份窗口是在进行备份操作时,应用系统可以接受的最长备份时间,对于某些5X8类型的非关键应用备份窗口可以很大,但是对于7X24小时的应用备份窗口就会很小。
四、LAN Free和Serverless备份
所谓LAN Free Backup顾名思义,就是指释放网络资源的数据备份方式。
在SAN架构中,备份服务器向应用服务器发送指令和信息,指挥应用服务器将数据直接从磁盘阵列中备份到磁带库中。在这个过程中,庞大的备份数据流没有流经网络,为网络节约了宝贵的带宽资源。在NAS架构中,情形十分类似,磁带库直接连接在NAS文件服务器上,备份服务器通过NDMP协议,指挥NAS文件服务器将数据备份到磁带库中。细心观察之下会发现,这两种方式虽然都节约了网络资源,但却增加了服务器的工作负荷,缺点是价格非常昂贵,大多数备份软件的LAN Free功能选项都需要用户付出高昂的价格。
Serverless Backup技术是以全面的释放网络和服务器资源为目的的,技术核心就是在SAN的交换层实现数据的复制工作,这样备份数据不仅无需经过网络,而且也不必经过应用服务器的总线,完全的保证了网络和应用服务器的高效运行。但是现实情况却没有这么理想,Serverless Backup技术目前只能停留在纸面上,实际实施效果很差,完全不需要主机干预还不现实。