如何保障数据的安全
精选 转载1. 数据完整性概述
存储是计算机中的数据可以说每天都在增加,与此同时,需要访问这些数据的人数也在增长,这样,无疑对数据的完整性的潜在需求也随之而增长。
数据完整性这一术语用来泛指与损坏和丢失相对的数据的状态,它通常表明数据的可靠与准确性是可以信赖的,同时,在不好的情况下,意味着数据有可能是无效的,或不完整的。
数据完整性方面的要点:存储器中的数据必须和它被输入时或最后一次被修改时的一模一样;用来建立信息的计算机、外围设备或配件都必须正确地工作;数据不能被其他人非法利用。
本章将从数据完整性和完整性的一般解决方法二个方面来论述数据完整性。
1.1. 数据完整性
对数据完整性来说,危险常常来自一些简单的计算不周、混淆、人为的错误判断或设备出错等导致的数据丢失、损坏或不当的改变。而数据完整性的目的就是保证计算机系统,或计算机网络系统上的信息处于一种完整和未受损坏的状态。这意味着数据不会由于有意或无意的事件而被改变或丢失。数据完整性的丧失意味着发生了导致数据被丢失或被改变的事情。为此,首先将检查导致数据完整性被破坏的常见的原因,以便采用适当的方法以予解决,从而提高数据完整性的程度。
在分布式计算环境中,或在计算机网络环境中,如果通过PC、工作站、服务器、中型机和主机系统来改善数据完整性已变得一天比一天困难。原因何在?许多机构为了给它们的用户提供尽可能好的服务都采用不同的平台来组成系统,这仿佛拥有不同的硬件平台一样,使这些机构一般都拥有使用不同文件系统和系统服务的机器。E-mail交换系统成了对协同工作的网络系统的需求;协议的不同需要网关或协议的转换;系统开发语言和编译器的不同也产生了应用上兼容性的问题,凡此种种,造成了系统之间通信上可能产生的问题。其结果使之处于一种充满了潜在的不稳定性和难于预测的情况之当。
一般地来说,影响数据完整性的因素主要的有如下5种:
l 硬件故障
l 网络故障
l 逻辑问题
l 意外的灾难性事件
l 人为的因素
1、硬件故障
任何一种高性能的机器都不可能长久地运行下不发生任何故障,这也包括了计算机,常见的影响数据完整性的硬件故障有:
l 磁盘故障
l I/O控制器故障
l 电源故障
l 存储器故障
l 介质、设备和其它备份的故障
l 芯片和主板故障
2、网络故障
在LAN上,数据在机器之间通过传输介质高速传递,用来连接机器设备的线缆总是处在干扰和物理损伤在内的多种威胁之中,使计算机之间难于通信或根本无法通信的事件,最终导致数据的损毁或丢失。网络上的故障通常发生如下三个方面:
l 网络接口卡和驱动程序实际上是不可分割的。在大多数的情况下,网络接口卡、驱动程序的故障并不损害数据,仅仅使使用者无法访问数据。但是,当网络服务器上的网络接口卡发生故障时,服务器一般会停止运行,这就很难保证被打开的那些文件是否被损坏。
l 网络中被传输的数据对网络所造成的压力往往是很大的。网络设备,例如路由器和网桥中的缓冲区不够大就会发生操作阻塞的现象,从而导致数据包的丢失。相反,如果路由器和网桥的缓冲容量太大,由于调度如此大量的信息流所造成的延时极有可能导致会话超时。此外,网络布线设计上不正确性也可能网络故障,影响到数据的完整性。
l 辐射本身就具有电子移动的能力,所以,辐射会给数据造成损坏是会自然的。控制辐射的办法,采用屏蔽双绞线或光纤系统进行网络的布线。
3、逻辑问题
软件也是威胁数据完整性的一个重要因素。由于软件问题而影响数据完整性的有下列几种途径:
l 软件错误
l 文件损坏
l 数据交换错误
l 容量错误
l 不恰当的需求
l 操作系统错误
这里:
软件错误包括形式多样的缺陷,通常与应用程序的逻辑有关。
文件损坏是由于一些物理的或网络的问题导致文件被破坏。文件也可能由于系统控制或应用逻辑中一些缺陷而造成损坏。颇为叫人烦恼的是如果被损坏的文件自己又被其它的过程调用而生成新的数据,这些新生成的数据是错的,这是一类很难应付的问题。
当文件转换过程中生产的新的文件,如果不具有正确的格式时便产生数据交换错误。
当软件在运行时,系统容量,如内存等的不够也是导致出错的原因。
所有的操作系统都有自己的错误,这是众所周知的,无需大惊小怪。此外,系统的应用程序接口(API)被第三方开发商用来为最终用户提供服务,这第三方根据公开发布的API功能来编写其软件产品,如果这些API不像所说的那样工作就会发生数据被破坏的事件。
在软件开发过程中,需求分析,需求报告没有正确地反映用户要求做的工作,系统只能停在那里,生成一堆无用的数据。这种情况在数字位数已被固定而输入的数字位数已被固定而输入的数字位数超出了这个限制时是很典型的。如果出错检查程序未能发现这一情况,程序就会产生错误的数据。
4、灾难性事件
常见的灾难性事件有:
l 水灾
l 火灾
l 风暴——龙卷风、台风、暴风雪等
l 工业事故
l 蓄意破坏/恐怖活动
5、人为因素
由于人类的活动数据完整性所造成的影响是多方面的。人类给数据完整性带来的常见的威胁包括:
l 意外事故
l 缺乏经验
l 压力/恐慌
l 通信不畅
l 蓄意的包袱破坏和窃取
1.2. 提高数据完整性的办法
提高数据完整性的可行的解决办法有二个方面的内容:首先,采用预防性的技术防范危及数据完整性事件的发生,其次,一旦数据的完整性受到损坏时采取有效的恢复手段,恢复被损坏的数据。下面所列出的是一些恢复数据完整性和防止数据完整性丧失的技术:
l 备份
l 镜像技术
l 归档
l 转储
l 分级存储管理
l 奇偶检验
l 灾难恢复计划
l 故障发生前的预前分析
l 电源调节系统
l 系统安全程序
l 备份
备份是用来恢复出错系统或防止数据丢失的一种最常用的办法。通常所说的Backup是一种做备份的操作,它把正确的完整的数据拷贝到磁带等介质上,万一系统的数据完整性受到了不同程度的损坏,可以用备份系统将最近一次的系统备份恢复到机器上去。作为一个网络管理员或系统员没有任何借口可以不做备份。
镜像技术
镜像技术是物理上的镜像原理在计算机技术上的具体应用,它所指的是将数据原样从一台计算机(或服务器)上拷贝到另一台计算机(或服务器上)。
镜像技术在计算机系统中具体执行时一般有二种方法:
逻辑地将计算机系统或网络系统中的文件系统按段拷贝到网络中的另一台计算机或服务器上
严格地在物理层上进行,例如建立磁盘驱动器、I/O驱动子系统和整个机器的镜像。
归档
在计算机及其网络系统中,归档有二层意思:其一,将文件从网络系统的线存储器上拷贝到磁带或光学介质上以便长期保存;其二,将文件从网络的在线存储器上拷贝的同时删除旧文件,使网络上的剩余存储空间变大一些。通过归档,也可以把在线存储器上删除的文件转入永久介质上的措施加强对文件系统的保护。
转储
转储与备份有其相同之处,但也有不同的地方。转储是指那些用来恢复的磁带是如何到别处去的。这是与备份的最大不同之处。
分级存储管理
分级存储管理(hierarchical storage management——HSM)与归档很相似,它是一种能将软件从在线存储器上归档到靠近在线存储器上的自动系统,也可以进行相反的过程。从实际使用的情况来看,它对数据完整性较使用归档方法具有更多的好处,但风险也更大。
奇偶校验
奇偶校验提供一种监视的机制来保证不可预测的内存错误不致于会引起服务器出错以至造成数据完整性的丧失。
灾难恢复计划
灾难给计算机落系统带来的破坏是巨大的,而灾难恢复计划是在废墟上如何重建系统的指导性文件。
故障前预兆分析
故障前预兆分析是根据部件的损坏或老化等情况并非一下子完全破坏的,而是有一过程,在这过程中,出错的次数不断增加,设备的动作也开始变得有点不可思议,根据分析,判断问题的结症,以便做好排除的准备。
电源调节
这里所说的电源是指不间断电源,它是一个完整的服务器系统的重要组成部分,当系统失去电力供应时,这种后援的系统开始运做,从而保证系统的正常工作。
除了不间断电源以外,电源调节还为网络系统提供恒定平衡的电压。因为,当负载变化时,电网的电压可能会有所波动,这样可能影响到系统的正常运行,因此,这种电源调节的稳压设备是很有价值的。
系统安全程序
2. 网络备份系统
网络备份系统存在一个目的是,尽可能地恢复计算机或计算机网络系统所需要的数据和系统信息。
网络备份实际上不仅仅是指网络上各计算机的文件备份,它实际上包含了整个网络系统的一套备份体系。主要包括如下几个方面:
l 文件备份和恢复
l 数据库备份和恢复
l 系统灾难恢复
l 备份任务管理
由于LAN系统的复杂性随着各种不同的操作平台和网络应用软件的增加而日趋增加,要对系统所做的完全备份的难度也有所增加,并非简单的拷贝所能解决的,需要经常作调整,对那种简单的要求进折衷。
2.1. 备份与恢复操作的种类
对于大多数网络管理员来说,备份和恢复是一项繁重的任务,每天都要小心翼翼,不敢有半点的闪失。而备份的最基本的一个问题是:为保证能恢复全部系统,需要备份多少以及何时进行备份?
2.1.1 备份
全盘备份
所谓全盘备份是将所有的文件写入备份介质。全盘备份的方法较流行,因为这是克服系统不安全的最直接了当的方法,操作起来也较简单。通过这种方法网络管理员可以很清楚地知道从备份之日起便可以恢复网络系统上的所以信息。尽管如此,往往会有很多数据使网络管理员无法每天做全盘备份而只能在周末进行全盘备份。其实,出于多方面的考虑,其中包括设备上的困难,很少有人喜欢大动干戈地进行全盘备份。
增量备份
增量备份指的是只备份那些上次备份之后已经作过更改的文件,即备份已更新的文件。增量备份是进行备份的最有效的方法。试想,如果每天只需做增量备份,除了大大节省时间外,系统的性能和容量问题也可以得到很好的改善。
任何事物都有其二重性,增量备份的确具有不少的优点,但它通常依靠文件的系统属性来识别作过改变的文件,这有时是并不可靠的。当然,这种不利的一面可能通过建立一个文件系统数据库或某种记录来标识新近更新的文件,这样可能会很精确可靠,但也更可能导致其它的系统问题,有些问题或许是无法预见的。增量备份存在的另一个问题是,从所有磁带中恢复数据所用的时间可能会很长。
对于一个有经验的网络管理员通常把增量备份和全盘备份一起使用,这样可以提供快速备份。这种方法可以减少恢复时所需的磁带数。
差别备份
差别备份是指备份上次全盘备份之后更新过的所以文件的一种方法。它与增量备份相类似,所不同的只是在全盘备份之后的每一天中它都备份在那次全盘备份之后所更新的所有文件,仅此而已。因此,在下一次全盘备份之前,日常备份工作所需要的时间会一天比一天更长一些。
差别备份可以根据数据文件属性的改变,也可以根据对更新文件的追踪来进行。
差别备份的主要优点是全部系统只需二组磁带就可以恢复——最后一次全盘备份的磁带和最后一次差别备份的磁带。
按需备份
所谓的按需备份是指在正常的备份安排之外额外进行的备份操作。这种备份操作实际上经常会遇到。例如,只想备份若干个文件或目录,也可能只要备份服务器上的所以必需的信息,以便能进行更安全的升级。
按需备份也可以弥补冗余管理或长期转储的日常备份的不足。
排除
排除严格来说不是一种备份的方法。它只是把不想备份的文件保证不会被拷贝到介质上去的一类方法。其原因,这些文件可能很大,但又并不重要;也可能出于技术上的考虑,因为在备份这些文件时总是导致出错而又没有排除这种故障的好办法。
2.1.2 恢复操作
恢复操作通常可以分成如下二类:
l 全盘备份恢复
l 个别文件恢复
l 此外,还有一种被称为重定向恢复的恢复操作。
全盘恢复
全盘恢复通常用在灾难事件发生之后或进行系统升级重组及合并时。
使用时的办法较简单,只需将存放在介质上的给定系统的信息全部转储到它们原来的地方。根据所使用的备份办法的不同可以使用几组磁带来完成。
根据经验,一般将用来备份的最后一个磁带作为恢复操作时最早使用的一个磁带。这是因为这个磁带保存着现在正在使用的文件,而最终用户总是急于在系统纠错之后使用它们。然后再使用最后一次全盘备份的磁带或任何有最多的文件所在的磁带。在这之后,使用所有有关的磁带,顺序就无所谓了。
恢复操作之后应当检查最新的错误登记文件,以便及时了解有没有发生文件被漏掉的情况。
个别文件恢复
个别文件恢复的草较要求进行全盘恢复常见得多。其原因无非是最终用户的水平不高而导致。
通常,用户需要存在介质上的文件的最后一个版本,因为,用户刚刚弄坏了或删除了该文件的在线版本。对于大多数的备份产品来说,这是一种相对简单的操作,它们只需浏览备份数据库或目录,找到该文件,然后执行一次恢复操作即可达到恢复的目的。也有不少产品允许从介质日志的列表中选择文件进行恢复操作。
有的时候出于某种需要,要求得到一个比较老的版本。对于这种情况,由于大多数现今的软件产品都提供这一类的功能,其中的一些产品好于另一种产品。用文件系统排序来选择文件的历次版本的产品通常比那些用登录排序选择旧版本文件的产品要快一些。这是因为文件系统列表只需进行一次搜索;而基于登录的方法,则需要浏览每一个登录记录一直到找到该文件的正确版本为至。建立登录索引可以减少这个问题。
重定向恢复
所谓的重定向恢复指的是将备份文件恢复到另一个不同位置或不同系统上去,而不是进行备份操作时这些信息或数据所在的原来的位置。重定向恢复可以是棋盘恢复或个别文件恢复。
一般来说,恢复操作较备份操作容易出问题。备份操作只是将信息从磁盘上拷贝出来,而恢复操作需要在目标系统上建立文件,在建立文件时,往往有许多别的东西可能会出错,其中包括容量限制、权限问题和文件被覆盖等错误。
备份操作不必知道太多的系统信息,只需拷贝所指定的信息就可以了。恢复操作则需要知道那些文件需要恢复哪些文件不需要恢复。例如,一个大型应用软件被删除了,一个新安装的应用软件又占据了它原来的位置,又假设,在某一天,系统出了问题,需要从磁带进行恢复,会发现旧的应用软件的删除对恢复操作而言是十分重要的,这样,它就不会既恢复旧的应用软件又恢复新的应用软件,以至用完了服务器的硬盘并再次使系统崩溃。遇上这类问题除了找人咨询外,需首先了解该备份软件是如何解决这类问题的,千万不能想当然,自作聪明!
2.2. 网络备份系统的组成
备份从表面上来看非常简单,但在实际上,要求提供功能完备的备份和恢复软件,其中仍包含了大量的复杂性。为了对网络备份有一个透彻的了解,下面将对网络备份组成部件和网络备份系统的组成作一介绍。
2.2.1 网络备份组成部件
网络备份有如下四种基本部件组成:
l 目标 目标是指被备份或恢复的任何系统
l 工具 工具是执行备份任务(如把数据从目标拷贝到磁带上)的系统
l 设备 设备通常指将设备和联网计算机连接在一起的电缆和接头。在局域网备份中SCSI总线通常将设备和备份工具连接起来。
基本的备份系统
基本的备份系统有下列二种:
l 独立服务器备份
l 工作站备份
独立的服务器备份是最简单的备份系统,它是将上面四种部件连在一起而构成。该系统包括一台把它自己备份到一个SCSI磁带驱动上的服务器。
工作站备份方法是由独立服务器备份演变过来的,它将工具、SCSI总线和设备移到网络的一个专用的工作站上。
服务器到服务器的备份
服务器到服务器的备份系统与独立服务器备份和工作站备份有些相似,这是目前最为常用的一种局域网备份的方法。
专用网络备份服务器
考虑到兼作备份工作的生产用服务器可能回发生故障或出现其它问题,有些部门或机构往往把工具、SCSI总线和设备放在专用的服务器系统上,这种方法与工作站备份有些相似,只是从备份系统的性能和兼容性的考虑才将工作站换服务器。
2.2.2 备份系统的组成
备份是一个系统,它有下列部分组成:
l 物理主机系统
l 逻辑主机系统
l I/O总线
l 外部设备
l 设备驱动软件
l 备份存储介质
l 操作调度
l 操作执行
l 物理目标系统
l 逻辑目标系统
l 网络连接
l 系统日志
l 系统监控
l 系统管理
上述这些备份的组成部分必须在一起工作才能组成一个可靠的系统。当对备份系统进行修改时,必须保证新的解决方案在各个组成部分上的负荷是平衡。
下面将对备份的组成部分进行详细讨论。
物理主机系统
物理主机系统是主要的备份逻辑在其上执行的机器。它可以是一个高性能的计算机,也可以是一台Unix工作站,也可以是任何进行备份的硬件。由于物理主机系统是一台硬设备,其CPU和I/O总线都允许各不相同,因此,备份的性能会受到来自机器自身的限制。
逻辑主机系统
逻辑主机系统实际上在备份系统中服务的操作系统。OS根据其自己的结构提供I/O功能。备份性能的好坏与操作系统有着很大关系。
I/O总线
I/O总线是机器的内部总线,包括在前面已经介绍过的SCSI的外部总线。内部总线用于传输数据,而外部总线用来连接存储设备。
目前,大多数PC系统中,包括使用EISA和PCI这样高速总线结构的系统,其传输数据的速度都低于5Mbps。如果总线速度达到了这个极限,就表明系统总线已经成了瓶颈口,同时,也表明存储硬件的速度已经足够快了。
在部分Unix系统中,有比较快的总线结构,大约每秒可达15Mbps。
最常见的用于存储设备连接的外部总线是SCSI。值得注意的是,大多数SCSI总线速度都超过系统总线速度。
另一种总线是PCI,它是一种可以进行调节以适应高速数据传输的结构。
SCSI技术对比
SCSI总线
速度(Mbps)
能连接的设备数
常规SCSI,8位传输
5
7
快速SCSI(用增强协议)
10
7
宽带SCSI,比位传输
10
15
快速宽带SCSI
20
15
超高速SCSI,8位
20
15
超高速SCSI,16位
40
15
多个SCSI设备可以用一种被称为“菊链”的技术到单个SCIS PC适配器上。
外围设备
外围设备指的是磁带驱动器、磁盘驱动器、光盘驱动器、RAID系统等可以对其读写数据的设备。这些设备中的大多数的传输速度较系统总线慢,并且没有一种能充分使用SCSI总线所提供的传输速度。
设备驱动软件
设备驱动软件是与设备接口的低层代码,用于控制设备运行的方式。适配器的ASPI(Advanced SCSI Programming interface,高级SCSI编程接口)是PC网络市场上的事实标准。因此,可以说所有的备份系统都支持ASPI。
不同的设备驱动程序可能对SCSI系统的性能和可靠性有极大的影响。在一般的情况下,更换SCSI驱动程序并不是一个好主意,除非有充分而又足够的理由。
备份存储介质
备份系统中的存储介质主要指的是磁带与光盘等。它们对其进行读写操作的设备实际是不可分的。
备份计划
备份计划是决定每天备份时需要做什么;对什么数据进行备份。有些备份系统已为备份操作提供了许多计划方面的灵活性和自动性。
操作执行者
操作执行者又称为备份工具,它是一组备份操作的代码,即在备份操作中负责大部分工作的程序,它的好坏直接影响着操作的效率,甚至影响到恢复操作。
物理目标系统
物理目标系统是指数据从其上拷走的机器。同备份主机系统的硬件平台一样,目标机器的硬件平台也能影响备份的性能。
逻辑目标系统
逻辑目标系统又称代理,在上面当然运行操作系统和应用软件。对备份而言,目标的逻辑含义是对操作执行者的要求作出一个响应的代理。该代理的主要任务是将文件和其他的系统数据通过某种方法提供给备份工具。作为逻辑目标系统必须掌握目标文件系统的详细情况和不在目标文件系统中的其他系统数据。
质量差的目标软件会对备份操作的整体性能产生严重的影响,甚至会造成备份工具的崩溃。一个运行速度特别慢的目标会影响到备份工作能否按时完成。
网络连接
网络连接可以是路由器、网桥、开关、集线器、线缆或任何其它处于网络上的计算机之间连接任何东西。当数据在网络传递的时候,如果网络设备超负荷运行并开始丢失数据包时就会发生一种常见的现象,其中包括文件损坏、失去目标、甚至会造成备份系统的故障。正因为如此,在对网络连接设备进行投资之前最好对网络上的备份系统负载有一些真正的了解。
网络协议
网络协议包括IPX/SPX、TCP/IP等。在网络上通过何种协议实现什么服务,以及这些服务的可靠程度是需要考虑,这也是局域网备份中存在的一个令人头痛的问题之一,它有时会使备份的性能下降,甚至导致通信会话过程关闭或失败,从而引发备份系统难以预料的行为发生。
系统日志
系统日志可以理解为一个数据库文件,它记录了哪些文件被备份到哪个设备上去了,他们什么时候被备份的,这些文件的系统属性是什么,以及备份工具开发者认为重要的任何信息的详细记录。
系统监控
系统监控是一种管理员界面。在客户机/服务器结构的网络系统中该界面运行在GUI界面的客户机平台上,而备份存储设备则接在服务器上。在备份工作进行时,由于监控程序需要在网络上传送数据从而增加了网络额外负载,导致备份系统性能的降低。因此,如果不需要对备份工作进行监控的话,最好把备份系统的监控界面关闭。
系统管理
随着网络系统规模的扩大,要求在网络上观察其备份系统的状态变得越来越重要。因此,能完成这种功能网络管理成了一种需求,以便能观察到备份运行的情况,提供备份的详细信息。此外,也可以通过简单网络管理协议——SNMP(Simple Network Management Protocol)来发现任何警告或其它问题。
2.3. 备份和恢复的设备与介质
备份系统中用于备份与恢复的设备和介质主要的有:
l 磁带介质
l 光学介质
l 磁带介质
磁带介质为什么被作为重要的备份设备其原因有:
磁带具有较好的磁化特性,容易在它上面读、写数据
磁带上的数据不会被与之相邻的同一磁带上别的数据处于低强度磁场的影响
磁带的各层不能相互分开或出现剥落现象
磁带具有很好的抗拉强度,不容易被拉断
磁带具有很好的柔软度,这样确保了通过磁带机时可以卷得很紧并可以很容易地被弯曲
正由于上述的原因,磁带被选作专用于数据记录。
用于数据的磁带记录方法需要采用一些完善的纠错技术以保证数据能正确无误地读写。通常30%的磁带表面被用于保存纠错信息。当数据被成功地写入磁带时,纠错数据也和其一起写入,以防止磁带在使用它进行恢复工作之前出现失效现象。如果磁带上的原始数据不能正确地被读出,纠错信息就被用来计算丢失字节的值;如果磁带机驱动器无法重建数据,就会给SCSI控制器发出一条出错信息,警告系统出现了介质错误。
在对磁带进行写的过程中,需要用另一个磁头进行一种写后读取的测试以保证刚被写入的数据可以被正确读出。一旦这种测试失败,磁带就会自动进到一个新的位置并再一次开始亿尝试。重写了数次后,驱动器就会放弃并向SCSI控制器发出一个致命介质错误的出错信息。这时备份操作就失败,直到新的磁带装入驱动器中。
磁带的种类
磁带从其技术上来说可以分为如下几种:
QIC(Quarter-inch Cartridge),代表1/4英寸盒式磁带。这种介质被看成是独立备份系统的低端解决方案,容量和速度较低,不能用于LAN系统。
4mm磁带,简称DDS。这种磁带的存储容量能达到4GB。DDSIII可达到8GB的容量。
8mm磁带,其容量未经压缩可达到7GB。超长带(160m)可达14GB。这种磁带的数据可交换性较4mm容易。
数字线性磁带(Digital Linear tape)或称DLT。这种磁带的性能和容量较好。DLT2000可写入10GB数据,在压缩情况下,可达20GB;DLT4000则有20GB的容量。使用压缩技术则可达到40GB
3480/3490,它用于主机系统中的高速设备介质。
磁带的维护
保存在磁带上的数据是一种财富,一种资源,因此,对磁带设备介质的保养、维护的工作不是可有可无的工作。通常对磁带设备介质的维护有如下几点:
定期清洗磁带驱动器
贮藏搁置的磁带至少每年“操作”一次,这样可以保持磁带的柔软性并提高其可靠性
当备份系统收到越来越多的磁带错误信息时,首先应怀疑磁头是否发生故障,将磁头清洗数遍,如仍发生大量错误,则需要考虑更换新的磁头。
光学介质
光学介质技术是将从介质表面反射回来的激光识别成信息。光学介质上的0和1以不同的方式反射激光,这样光驱就可以向光轨上发射一束激光并检测反射光的不同。
磁光介质
可读CD(CD-ROM)
磁光盘,或称MO(magnetic-optical),是所有的现有介质中具有最好的持久性和耐磨性的一种介质。它允许进行非常快速的数据随机访问,正是这种特性,MO特别适合与分级存储管理应用。但由于MO的容量至尽仍不能与磁带相比,因此,它未被广泛用于备份系统。
可读CD,即CD-ROM,目前因为速度太慢和进行多进程介质写入所遇到的技术困难,它至少在目前还不能适应于网络备份的要求。
提高备份性能的技术
当对大量的信息进行备份时,性能便成了非常重要的问题。被用于提高网络备份性能的技术有:
l RAID技术
l 设备流
l 磁带间隔
l 压缩
l RAID
磁带是备份系统常用的一种设备介质。磁带在记录磁头上移动所需的时间是一个瓶颈口,是影响备份速度的一个重要因素,而解决这瓶颈问题的一种行之有效的办法是采用磁带RAID系统。磁带RAID的概念与磁盘RAID相类似,数据是“带状”通过多个磁带设备的,因此,可以获得特别快的传输速率。但是,由于磁带在操作过程中总是走走停停,一旦当驱动器清空了缓冲器后等待下一次数据到来时,往往会导致速度的大幅下降,这是RAID方法的一大不足之处。此外,这种方法在数据恢复操作时存在可靠性问题,因为要正确地恢复数据就要对多台磁带设备进行精确的定位和计时,这是一件较为困难的任务。不过,该技术仍然有希望用于需要最高的速度和容量的情况下。
设备流
设备流指的是读写数据时磁带驱动器以最优速度移动磁带时所处的状态,只有磁带驱动器处在流的状态才能达到最佳的性能。显然,这需要使磁带RAID系统中的所有设备都处于流状态下工作。
为此,SCSI主机适配器必须持续地向设备缓冲器中传输数据。遗憾的是, 大多数LAN的传输能力还不能足够快地为备份应用程序提供足够的数据使设备的缓冲器处于满载的状态。这就是说,设备流技术可以提高备份的性能,但要将设备保持在100%的流状态是有一定的困难的。
磁带间隔
磁带间隔将来自几个目标的数据连接在一起一并写入同一个驱动器中的同一盘磁带上。这实际上是它将数据一起编写在磁带上。这样便解决了上面提到的问题。
压缩
有内置压缩芯片的设备能够提高备份的性能。这些设备当往介质上写数据时首先对它们压缩,这样做后所带来的性能的提高的程度比压缩率略小或相等。对于PC LAN上的大多数数据来说压缩率可达到2:1,这就是说,设备的流速度在压缩数据时是不压缩时两倍!
此外,可以通过网络自身的性能来提高备份的性能。在大型的备份系统中可采用SCSI控制器提高SCSI设备的运行效率,但在SCSI主机适配器上接过多的设备反而影响其性能,通常所接的设备数不超过三个为妥。
2.4. 磁带轮换
磁带无疑是网络备份系统主要的备份介质,而磁带轮换是建立备份策略时遇到的首要问题之一。所谓的磁带轮换实际上是在备份过程中使用磁带的一种方法,它是根据某些预先制定的方法决定应该使用哪些磁带。由于数据是存放在磁带之中,一旦需要对数据进行恢复时,如果信息量不大,存放信息的磁带相应来说也不多,在这种情况下使用备份带可能问题不会太大;如果存储数据的磁带数量较多,那么建立一个对磁带管理的系统将是十分有用的,对数据的恢复是很有帮助的。
磁带轮换的主要功能是决定什么时候可以使用新的数据覆盖磁带上以前所备份的数据,或反过来说,在哪一个时间段内的备份磁带不能被覆盖。例如,磁带轮换策略规定每月最后一天的备份要求保存三个月,那么,磁带轮换就可以帮助保证三个月过去之前数据不会被写到这些磁带上。这样能帮助减少在备份操作过程中可能出现的人为错误,不致于在错误的时间段内把错误的磁带插入驱动器从而导致数据的丢失或数据的破坏。
磁带轮换的另一个好处是能够使用自动装带系统。把自动装带系统和磁带轮换规则联合起来使用可以减少人为而引起的错误,使得恢复操作变得可以预测。
磁带轮换主要有如下几种模式:
A/B轮换,在这种方式中,把一组磁带分为A、B二组。“A”偶数日使用,“B”在奇数日使用,或反之。这种方式不能长时间保存数据。
每周轮换,这种方式每周换一次磁带。这种方法当数据较少时很有效。
每日轮换,它要求每一天都得更换磁带,即需要有7个标明周一到星期日的磁带。这种方式,在联合使用全盘备份和差别备份或增量备份时较有效
每月轮换,它通常的实现方法是每月的开始进行一次全盘备份,然后在该月余下的那些天里在其他的磁带上作增量备份
祖、父、孙轮换,它是前面所讲的每日、每周、每月轮换的组合
日历规则轮换方法,它是按照日历安排介质的轮换。根据此方法,可以为每次操作设定数据保存的时间,而不是为某组阶段性磁带设定保存时间
混合轮换,这是一种按需进行的备份,作为日常备份的一种补充
无限增量,该模式的方法是只需做一次全盘备份,也就是在第一次运行该系统以后只需执行增量备份。在恢复操作时,该系统能合并多次备份的数据并写到其他更大的介质上。这种模式要正常运行就得用精确的数据库操作。
除上述所讲的磁带轮换模式外,还有基于差别操作、汉诺依塔轮换模式等,这里不一一介绍。
2.5. 备份系统的设计
网络备份实际上不仅仅是指网络上各计算机的文件备份,它实际上包含了整个网络系统的一套备份体系。因此,在对某一具体的网络系统进行备份设计时需要对网络系统的现状做详细分析,在此基础上,根据实际的备份需求提出备份方案的设计,千万不能想当然,或把他人的系统照搬。
系统现状分析及备份要求
系统的现状分析的内容包括:
l 网络系统的操作平台
l 网络所采用的数据库管理系统
l 网络上运行的应用系统
l 网络系统结构以及所选用的服务器等
l 对网络备份系统的要求主要有:
l 备份的数据需要保留的时间
l 对数据库的备份是否要求在线备份
l 对不同操作平台服务器要求以低成本同地实现备份
l 是否需要一套自动恢复的机制
l 对恢复时间的要求
l 对系统监控程序运行的要求
l 对备份系统自动化程度的要求
l 对网络前台工作站信息备件要求
l 说明现已采用的备份措施等
备份方案设计
一套完整的备份方案应包括备份软件和备份介质的选择,以及日常备份制度和灾难性的应急措施。
备份软件
备份软件的选择对一个网络系统来说是至关重要的,它的选择必须满足前面所讲到全部需求。
对于一个PC LAN来讲CA公司的RAC Serve可说是一个较好的能满足上述要求的备份软件。CA的备份软件采用提主程序加选的组织方式,主程序可以完成大部分的常用功能,比较特殊的功能则由各个选件来完成。
备份介质
常见的备份介质当然首选是磁带。当然,根据实际情况也可以考虑其它的介质。
日常备份制度
日常备份制度,如果决定采用磁带作为备份的介质,那么,可以根据上一节——“磁带轮换”中所介绍的几种模式,选择其中的一种或几种模式作为日常备份制度。
备份方案的实现
备份方案的实现包括下列几个方面:
l 安装。包括应用系统,备份软件以及磁带机的安装
l 制定日常备份策略
l 文件备份
l 数据库备份
l 网络操作系统备份
l 工作站内容备份
基于CA ARC server的备份方案设计
网络系统备份涉及到文件备份、数据库备份、应用程序备份等多个方面,在多数环境下还要实现跨平台的备份。根据系统的实际情况设计合理的备份方案至关重要。
常见的备份方式有集中备份和本地备份二种。一个网络系统采用哪一种备份方式在很大程度上取决于网络的规模。
集中式备份对小型网络系统较为适用。集中式备份的优点是硬件投资少,操作简单,它的主要的缺点是对网络速度要求较高。
对于大型网络系统应使用本地备份方式,即将大型网络划分成若干小型子网,每一子网都使用集中方式进行备份。本地备份的优点是不依赖于网络速度,备份速度高,响应时间短。它的主要缺点是硬件投资较高,每个子网都需要安装备份系统。
CA ARC Server 简介
CA ARC Server是一个跨平台的网络数据备份软件,在数据保护、灾难恢复、病毒防护方面均提供全面的产品支持,目前已成了业界事实上的标准。
ARC Server具有如下几个方面的特性:
l 全面支持和保护Netware和Windows NT操作系统
l 支持打开文件备份
l 支持对各种数据库如Sybase、Oracle、Betrieve等的备份
l 支持从服务器到工作站的全面网络备份
l 备份前扫描病毒,可以实现无毒备份
l 可以实现无人值班的自动备份
l 支持灾难恢复
ARC Server备份系统的组织模式是主模块+选件(option)。主备份程序只完成通用的备份功能,而比较特殊的备份功能由选件来实现。ARC Server主模块在Netware和Windows NT下分别有二个版本——ARC Server for Netware和ARC Server for Windows NT。
CA ARC Server备份方案
环境
二台Netware服务器,一台为文件服务器,另一台为数据库服务器,运行Betrieve。要求实现整个网络的数据及系统备份。
方案
方案一:将数据库服务器作为备份服务器,ACR Server软件配置为:ARC Server for Netware+Diasater Recobery Option
可以实现如下功能:
l 整个网络中非活跃文件备份
l 数据库关闭状态备份
l 系统关键信息(NDS或Bindery)备份
l 系统灾难恢复
方案二:将数据库服务器作为备份服务器,ARC Server软件配置为:ARC Server for Netware+Disaster Recovery option+Backup Agent for Betrieve
可以实现如下功能:
l 整个网络非活跃文件备份
l 数据库打开状态备份
l 系统关键信息(NDS或Bindery)备份
l 系统灾难恢复
方案三:将数据库服务器作为备份服务器,使用磁带库作为备份硬件。ARC Server软件配置为:ARC Server for Netware+Disaster Recovery option+Backup Agent for Betrieve+Backup Agent for open files+Tape Library
可以实现以下功能:
l 整个网络文件备份,包括活跃状态文件
l 数据库打开状态备份
l 系统关键信息(NDS或Bindery)备份
l 系统灾难恢复
l 备份数据的RAID容错
l 无人值班备份
l 在工作站上安装对应平台的备份代理程序,即可实现Windows 95/98,Macintosh以及DOS平台的数据备份。
2.6. 备份的误区
长期以来,人们把备份仅仅看作一种简单的从磁盘的拷贝,因此,忽视了备份的重要性,对备份存在着一种错误的认识。
2.6.1 为什么要备份
在讨论备份的误区之前先陈述为什么要对数据作备份的几个理由:
l 电器的物理损坏,尤其是硬盘驱动器的毁坏,使数据丢失
l 人为的错误,如偶然地删除文件或重新格式化硬盘
l 黑客通过远程侵入计算机网络系统并造成关键数据的丢失
l 硬盘驱动器或硬盘被病毒感染
l 盗窃
l 自然灾害对网络系统造成的破坏
l 电源浪涌,损害硬盘驱动上的数据
l 电磁干扰使文件被清楚等
综上所述,数据备份并非是可做可不做的事,对于一个计算机系统或计算机网络系统来说建立备份是必须的。
但是,对数据备份存在着非同一般的错误的认识。
2.6.2 备份的误区
备份的误区主要存在于下列三个方面:
l 拷贝
l 磁盘阵列
l 利用系统提供的备份命令
l 拷贝
l 拷贝是实现数据备份的一个手段,但它不是备份的全部。因为:
l 拷贝不能保存档案的历史记录
l 备份可保存目录服务记录及重要的系统信息
l 磁盘阵列
磁盘阵列(RAID)对数据的安全性在某种程度上是可取的,但把RAID作为备份是错误的,其理由:
l RAID 的主要用途是保证在线,(即时资料)
l RAID并没有保留第二份或更多的历史资料
二个磁盘同时毁坏了怎么办?
成本,RAID的投资与磁带机的投资比较,当容量越大时就越明显
系统备份命令
通常,大家所熟悉的系统所提供的备份命令,如Backup等与备份是有所不同的。主要的不同之处表现在下面几个方面:
不具备容错的功能
不具备开放性
对异构网络无法进行备份
对大型、超大型数据库无能为力
3. 归档和分级存储管理
归档和分级存储管理(Hierarchical Storage Management,HSM)是检查从在线系统上移动数据的二种不同的方法。在信息社会中,数据的增长之快、之多,往往被称作信息爆炸。网络系统中数据的持续不断的增长,向人们提出这样的一个非常现实的问题;如何去管理好网络系统中的数据?如何才能最有效地管理网络数据作出行之有效的决定。这是本章的内容所在。
3.1. 归档的基本概念
数据的完整性通常会受到在线系统问题的影响,其中,系统自身的故障或出错是常见的影响数据完整性的一个方面,但是,人为的错误或者人为的有意识的毁坏是影响数据完整性的又一个原因。最大限度地减少这类问题的一种常用的方法是将数据从在线系统上移到脱线的存储器上,将数据从机器上转移到可移动的介质上,这样可以防止对数据所造成的种种威胁和损害。归档与备份一样,都是为了数据完整性而采取的一种有效的和直截了当的方法。
归档的目的
如果说备份的主要目的是恢复由于某些原因损毁或丢失的数据,那么,数据的归档是为了对数据的长期保存,甚至于永久性的保存。备份对数据的保存相对来讲较短,一天、一个星期、或几年,但通常不会超过2-3个月,而且,备份通常需要每天进行,而归档通常就不那么频繁了。
归档的定义
所谓归档是指数据拷贝或打包以便能进行长时间的历史性保存。它的一个很重要的作用是帮助LAN系统管理员将文件或信息从服务器磁盘上删除,宁可在以后需要的时候再从脱线的存储器中访问,这样不但充分而合理地使用了磁盘资源,而且,这部分数据的安全性和完整性得到了很好的保护,可谓是两全俱美。
归档操作
主要的归档操作有二种:
l 历史性归档
l 容量管理
l 历史性归档
正如前面所述,归档的一个理由是对数据的长期保存。对于一个机构或一个部门来说,大量的文件,包括人力资源信息,各类分析报告、工程图、水图象等等,对于其中的部分文件可能已经没有任何使用价值的,可以删除,但对极大部的文件来说,具有一定的使用价值或历史价值的归档及进行长期保存,在急需的时候可以对它们进行恢复,其经济意义和历史意义是不容置疑的。
容量管理
对数据进行归档除了需要对有价值的数据长期保存外,另一个原因是在线系统上的数据实在太多,服务器磁盘的自由空间日趋缩小,当磁盘的自由减少到一定程度,操作系统想往磁盘上存放超出其容量的数据时很可能严重影响到数据的完整性。在LAN环境下,这还可能同时影响多个用户的数据。
解决服务器磁盘容量问题的一个最常用的办法是网络管理员或系统管理员在发现将要发生磁盘容量问题时立即删除被认为不重要的文件和目录。庆幸的是,备份系统能够在发生错误时可以对它进行恢复。
为了保留磁盘空间而进行归档这并不是什么新的注意,实际上,很多很多人早就做了。这种做法的好处是文件系统的管理工具正变得更好用,而且功能也更强大,然而,不能提供所需的设备和介质的支持。
归档文件的选择
每当决定对系统中文件归档时,首先需要考虑的问题是对哪些文件进行归档,这实际上也是一个归档的策略。通常,有四个文件系统变量作为进行选择归档文件的依据。这四个变量是:
l 文件的大小
l 时间(文件从最后依次更新起的时间)
l 目录
l 属主关系
根据经验将上述四个变量联合起来用更为好一些,当然,这并非是绝对的,有时采用简单的策略会使管理变得更容易。
四个文件系统变量具体用法:
变量
用处
例子
文件大小
容量管理
归档所有大于100Mb文件
时间
历史性归档
归档所有超过一年末
(从最后一次更新起的时间)
容量管理
被更新的文件
目录
历史性归档容量管理
用一个目录作为归档贮存处其中的每一个都被归档
属主关系
历史性归档
由某人一小组成员或项目成员建立文件都归档
3.2. 归档的方法
目前,可供选择的用于归档文件的产品不少,其中有的是面向系统软件的,有的则是面向应用的。不幸的是,到目前为止,几乎所有的文档管理软件虽然都包括了归档文件的方法,包括为历史性归档和容量管理归档的,但还没有一种产品能包括对磁带或光学驱动器的设备支持。因此,归档功能受到了一定的限制,只能屈就选择的文件移动到一个特别的目录中以完成归档任务。
通常使用的归档方法有如下几种:
l 文档管理
l 压缩归档
l 用备份系统归档
映象系统
下面对这几种方法做详细的介绍。
文档管理
文档管理系统所管理的对象是网络上一些已经定义过的文档组。所采用的搜索方法拨款关键字、文本串、文件名、所以权,甚至模糊语言匹配算法等。它可以快速地寻找所需的文档。
文档管理系统在对文件归档的时候,首先选择一些符合归档判据的文件,这些判据通常是时间(最后一次备份的时间),然后,文档管理系统将这些文件移入到作为存放处的目录中保存,直至文件被写入移动介质中或被删除。
文档管理系统的管理人员应该定期检查该目录,将其中的文件写入移动介质,通常是磁带上。
文档管理系统做归档的一种方法的确可以使用,但这种方法存放在二点不组之处:
磁带管理中没有冗余配置
操作过程是手工与自动的混合,无完整性检查,无法保证所有的文件在被删除之前的确已被写入磁带。
压缩归档
压缩归档的方法是PC网上颇为流行的一种归档方法。它的基本原理是用数据压缩工具对数据进行压缩,使其所占用的磁盘空间少一些,然后定期地将其拷贝下来存放在其他地方或将它删除。
压缩归档的方法使用十一般用文件系统工具按照文件的大小、最后一次更新的时间和文件的所有者来识别和选择文件。在检查过选出的文件后,管理员使用压缩工具将文件压缩并删除原始文件。在压缩过程中,压缩工具将文件组合在一起压缩成一个大的压缩文件,而不是一个压缩文件仅对应于一个原始的末压缩文件。通常这种压缩方法能节省高达70%的磁盘空间。
使用压缩归档的方法要求LAN系统管理员必须详细记录包括目录、磁带和压缩文件在内的所有信息。
尽管这种压缩归档的方法在PC网上较流行,适合于数据管理,但这种方法的一个致命的缺点是容易出错。此外,使用该方法时其操作过程没有一定的规则,造成很多人为的不利因素在其中,也没有提供简单的工具让最终用户找到所需的那些文件,更没有强制性的冗余策略来保证数据不会由于介质损坏而丢失。
用备份归档
使用备份系统进行归档是另一个常用的归档方法。采用这种方法进行归档首先需要确定对那些文件进行归档,然后进行一次备芬操作将那些文件存放在可移动的介质上,最后把那些文件删除。这种方法的最大的特点是,它提供了文件管理系统和压缩归档都缺乏的设备和介质写入操作功能。尽管如此,备份系统归档仍没有建立介质冗余的机制,除非用户自己动手来做这件事情。这可以通过往不同的磁带上多次写入同样的数据来实现,例如,往三个不同的磁带上进行三次不同的备份操作。
需要指出的是用备份系统进行归档的磁带,有可能在无意中被错误地用在备份操作中。这就是为什么冗余拷贝如此重要的原因。
在LAN备份产品中也有提供一些归档文件的功能,这些功能被称为磁盘修饰或文件迁移。但它也不提供对介质上的文件的校验。即使备份系统也有一些进程日志或数据库能用来追踪文件,但这些信息对最终用户来说并不是总可以访问的。何况备份系统中的日志功能或数据库并不会保存很长时间。作为一个解决方法,在归档文件时最好也将日志文件或数据库备份到同一磁带上。甚至可以采用一个单独的系统来帮助追踪,归档文件。这样增加了额外的负担,但在今后进行文件恢复时会有帮助的。
映象系统
一般来说,映象系统不适合于大型文件系统的归档,但它为某些大容量应用程序提供归档的功能。从为用户定位文件来说,映象系统和文档管理系统有其想象的地方,二者之间的主要区别在于映象系统通常有集成化的设备支持功能。映象系统产品中的大多数都有一个包括唱机式设备在内的应用程序包。唱机式设备使系统可以在不占用服务器磁盘存储容量的情况有效地运行。
映象系统对于无纸办公应用程序是再好不过的大献身手的地方。在这些应用中,文件是采用电子方式录入的并被存储在记录之中。需要进行大量帐户活动数据检查跟踪的机构,如海关、商检部门、税务、保险等,使用映象系统归档,可以快速有效地存储将来也许需要查看的文件,而不必采用如使用缩微胶片等陈旧的技术。
映象系统由于其数据从没有真正地被驻留在服务器上,因此,有人会说它不是真正的文件系统归档,但是,它的确是一种在网络上对大量历史性信息进行访问的方法。
映象系统是一种在线系统,所需的文件是直接从光学介质上读出的,而不是首先要被拷贝到服务器上才能进行访问。映象系统是一种较为特别的应用系统,它不能被用于一般目的的文件系统操作中。为了将文件存入映象系统,必须使用映象本身所提供的数据输入输入技术,如纸张扫描、医学扫描或打印图象等。
映象系统设计的目的不是用来处理原始数据的,它设计的目的是存储映象数据的。从另一个方面来说,归档应该是能够处理所有有用的数据类型,其中也包括映象数据。
3.3. 归档中的介质与冗余
对于被归档在介质上的数据通常需要保存相当长的一段时间,因此,对于存储归档数据的介质应作预防和维护的处理。
介质存储
归档数据所用的介质主要是磁带,能影响磁带上存储数据的寿命的有如下几种因素:
温暖/炎热的气温
温度
电磁辐射
污染物和烟尘
对于存放归档数据的磁介质来说,炎热和潮湿的天气是它的天敌。如果要想把介质上的数据年复一年的长期保存好,应当将介质存放在可能的最好的环境。华氏40度和低于30%的相对湿度是理想的保存环境,但是,一般来说很难达到,即使做到了这一点,为此而付出的代价是非常昂贵的。
将介质保存在强电磁场的地方是不可取的。雷达系统和电焊机是最严重的高功率电磁噪声源。二者都可以完全破坏介质上的数据。在办公室环境中,电梯通道附近或任何他大电流通过的电缆附近是不宜存放磁带的。将磁带保存在坚实的金属或保险箱内,即使在这样电磁辐射恶劣的环境中也能使数据免受损害。
在磁带架子上存放了特别长的一段时间的磁带往往会变得脆弱,当一下使用它时发生磁粉脱落,数据丢失的情况是屡见不鲜的。为了防止这类情况的发生可以在一台干净的磁带机上每年二年对磁带从头到尾运转,这样可以帮助保持磁带的柔软性,防止磁粉的脱落。
冗余
冗余的目的是为了保证有足够多的介质以防有些介质由于意外而损毁。
建立冗余数据有二种基本的方法:
进行多次操作或拷贝介质
每执行一次归档操作后将介质上的数据拷贝到其它的介质上
为了能将数据保存很长的时间,除了严格遵守介质规程外,需要采用长时间保存的介质制定新的拷贝的策略,以保证归档数据可以保存更长的时间。
3.4. 分级存储管理(HSM)
分级存储管理(HSM)是一种提供归档功能的自动系统,对用户和管理人员来说,HSM是完全透明的。
分级存储管理与归档的不同之处是,HSM本质上并不将文件删除,而是在文件原来的地方保留一个很小的文件,当用户需要访问原文件上时,这个小文件可以自动地将原来的文件找回来。另一个不同之处HSM系统用“转移”这个词代替“归档”这个术语。
HSM的功能组件
HSM是一个多层次的介质系统,在这种系统中除了设备与介质之外,还需要相应的软件或功能组件才能正确地工作。HSM是建立在如下三个简单的功能上的:
l 自动转移
l 自动回换
l 标志文件
下面对这三个功能组件做详细的介绍:
自动转移
在讲自动转移之前先介绍一下“转移”。所谓转移就是将文件拷贝到可移动介质上,并在服务器上将那些文件删除。显然,转移是执行归档功能的一种操作。在HSM中,转移组件也承担起建立标志文件的任务。该方法是可以采用一组参数来决定文件何时应被归档,有哪些文件被归档。
自动转移通常由系统建立一个监控进程,该监控进程用以判断所设置的存储容量(磁盘容量)是否被超过,或者系统设置好的安排被触发。如果超过了,或被触发了,HSM系统就会进行干涉并开始拷贝和删除文件。通常,设定的存储容量门限在85%-95%的磁盘容量之间。一旦磁盘容量超过了某一点,有可能会出现这样一个问题:即转移将持续不断地进行并开始移动原先考虑将其保存在在线存储器上的那些文件。因此,应当有一个门限容量决定何时应当停止转移操作。这个门限容量称为低水位标志。典型的低水位标志在磁盘容量的60%~70%之间。
自动回唤
自动回唤是什么?自动回唤的意思是,当用户需要访问标志文件时将文件从HSM系统中恢复过来的功能。该过程对用户而言要求越透明、越快就越好!
自动回唤的工作过程大致有如下三步:
首先,在系统中建立一种能够识别标志文件的机制。这一步是通过艰苦程序捕获每一个被打开的文件以予实现,也可以通过对文件系统的修改来实现,这样文件系统自己就可以识别标志文件了。
第二步,当标志文件被识别后,从中读出某些信息并把他们送到HSM系统。
第三步,当HSM系统获得这些信息后决定使用何种介质来恢复该文件。正确的介质被装载,然后文件被恢复到磁盘上,用原始文件将标志文标文件覆盖。
自动回唤系统的最大的一个问题就是从HSM系统介质上恢复文件的时间开销太大,远远超过了用户的预料。使用磁带的HSM系统比使用光学介质的HSM系统更慢。
标志文件
标志文件又称占位文件。它是由HSM的独特组件建立并代替原始文件。标志文件具有与原始文件相同的文件名,但较原始文件小得多,其内容包含了原始文件所处的可移动介质的相关信息。
在具体使用标志文件时至少到目前还有下列二个问题还未解决。其一,标志文件的更名方法。因为,与标志文件有相同文件名的新文件会覆盖标志文件,使得标志文件所代表的前一个版本不可恢复。现在,基于LAN的HSM系统还不能提供更名的功能。其二,标志文件在重新组织、分割或合并服务器时能否将标志从一个服务器移到另一个服务器,以及当标志文件被转移后能否正常的工作。对于该问题,HSM软件公司虽然提供了管理标志文件的转移工具,但还有一些极为困难的问题还需改进解决。
分级结构
事实上,HSM是一种多级介质系统。这种系统的大量的特点是,数据能够在不同的介质中转移。但是,介质的这种结构没有标志文件那么重要。尽管如此,HSM作为一种归档方法,如果不介绍它的有关的介质策略,那么,不能算是完整的。
两级分级
HSM系统的两级分级建立的一个主要思想是,数据转移只需要一个存储空间,也就是近在线存储。当数据量达到存储数据的设备的存储量的时候,只需简单地将最老的介质从转移出来,并存放在适宜的环境中,如凉爽、干燥的地方。
两级分级系统适用极大多数的LAN系统。
三级分级
三级分级系统是HSM系统中最常见的一种。这种系统中,转移文件首先被存放在近在线设备上以备快速回唤,然后,转移到脱线介质上。是三级分级中,脱线系统可以是像大型磁带库那样的另一种类型的自动系统。和作为近在线存储的光学唱机式设备一起组成系统的这种磁带库可以提供慢速组自动的从脱线存储子系统的文件回唤。
近在线介质和设备
常用的近在线介质设备有:光学唱机式设备有:光学唱机式设备,以及可读写的CD子系统。这些近在线介质设备的一个主要缺点是能存储数据的容量普遍较小。
磁带也可以用来作为近在线存储设备,但它需要花费很多的时间来进行装载,装载之后也要花较多的时间去寻找数据。如果决定使用磁带作为近在线存储,需要用一个多驱动器自动加载机以应付多用户文件回唤的要求。此外,建议采用4mm和8mm设备,因为,这些设备的装带速度较DLT的装载速度快得到。DLT有较好的可维护性的容量。
近在线存储可以通过使用磁盘来优化性能。
脱线介质和设备
脱线介质通常指的是磁带。此外,可读写的CD也可作为脱线介质。
HSM的工作过程
HSM的工作过程如下:
首先,文件由HSM系统选择进行转移。然后,将这些文件拷贝到HSM介质上。当文件被正确地拷贝以后,一个原文件有相同名的标志文件被建立,这个标志文件所占用的磁盘空间较原文件所占的磁盘空间要小得多。当用户需要访问这个标志文件时,HSM系统将原始文件从正确的HSM介质中恢复过来。
HSM与网络结构
HSM系统与网络系统中服务器的连接可以一对一的连接,也可以被设置成从多个服务器上转移数据。如果是一对一的连接,那么,所有的数据的传输都通过SCSI总线来完成,对网络数据流量没有额外的冲击。但这并不意味着这种一对一的连接不会遇到网络数据流量的问题。因为,HSM毕竟需要通过网络来完成它的工作。例如,当服务器的存储器中的数据量达到HSM系统的高水位标志时开始转移数据文件,此时,网络的带宽不一定能保证大量数据在线缆上的快速转移,其结果很有可能造成网络系统不能正常地工作,甚至使网络瘫痪。正如这个原因,在考虑HSM系统实现方式的时候,必须考虑到网络系统中网桥或路由器中数据传送的情况,应尽量避免在网桥或路由器中传送大量的数据从而使其饱和。
为了避免上述这种情况的发生,在一些HSM系统中采用对转移文件进行预处理的办法。这种方法的要点是:先预测哪些文件是需要先转移的,然后,在非繁忙的工作时间将它们拷贝到近在线存储介质中。这样,在转移操作时需要转移的数据就减少了,此时的主要工作就成了删除文件并建立和保留标志危机的工作。
4. 容错与网络冗余
备份对网络管理员来说应该是每天必须要完成的事,它的真正的目的应当是保证系统的可用性。要提高网络服务器的可用性应当配置容错和冗余部件来减少它们的不可用时间。当系统发生故障时,这些冗余配置的部件就可以介入并承担故障部件的工作。
本章介绍几个实现冗余和容错技术的途径,帮助减少用户在服务器故障发生以后网络数据不可用的时间。
4.1. 容错技术的产生及发展
容错技术是构造高可靠性的网络系统的有力手段,也是一个活跃的研究领域。本节简要地回顾一下可靠性技术的研究历史,概括地叙述可靠性技术的前景。
4.1.1 历史的回顾
性能、价格和可靠性是评估一个网络系统的三大要素,为了提高网络系统的高可靠性,人们进行了长期的研究总结了二种方法。一种叫做避错,试图构造一个不包含故障的“完美”的系统,其手段是采用正确的设计和质量控制尽量避免把故障引进系统,要绝对做到这一点实际上是不可能的。一旦系统出了故障,则通过检测和核实来消除故障的影响,进而自动地或人工地恢复系统。第二种方法叫容错,所谓容错是指当系统出现某些指定的硬件或软件的错误时,系统仍能执行规定的一组程序,或者说程序不会因系统中的故障而中断或被修改,并且执行结果也不包含系统中故障所引起的差错。
容错的基本思想是在网络系统体系结构上精心设计,利用外加资源的冗余技术来达到掩蔽故障的影响,从而自动地恢复系统或达到安全停机的目的。
人们对容错技术的研究开始很早,1952年冯 诺依曼(Von.Neuman)在美国加里福尼亚理工学院作了5个关于容错理论研究的报告,他的精辟论述成为日后容错研究的基础。
最初,人们从用四个二极管进行串并联代替单个二极管工作可以提高可靠性这一事实中得到启发,研制出四倍冗余线路;从多数元件表决的结果较为可靠这一事实总结出三模冗余和N模冗余结构;在通信中发展起来的纠错码理论也被很快地吸收过来以提高信息传送、存储以及运算中的可靠性。60年代末,出现了子检、自修计算STAR为代表的容错计算机,标志着容错技术从理论上和实践上进入了一个新时期。
70年代是容错技术研究蓬勃发展的时期,主要的成功有电话开关系统ESS系列处理机、软件实现容错的SIFT计算机、容错多重处理机FTMP,表决多处理机C.vmp等。
80年代是VLSI和微计算机迅速发展和广泛应用的时代,容错技术的研究也随着计算机的普及而深入到整个工业界,许多公司生产的容错计算机,如Stratus容错机系列、IBM System88、Tandem 16等已商品化并进入市场。人们普遍认为,把容错作为每个数字系统的一个重要特征的时代已经到来,容错系统的结果已由单机向分布式系统发展。
4.1.2 展望
随着计算机网络系统的进一步发展,网络可靠性变得越来越重要。其主要原因如下:
网络系统性能的提高,使系统的复杂性增加,服务器主频的加快,将导致系统更容易出错,为此,必须进行精心的可靠性设计。
网络应用的环境已不再局限于机房,这使系统更容易出错,因此,系统必须具有抗恶劣环境的能力。
网络已走向社会,使用的人也不再是专业人员,这要求系统能够容许各种操作错误
网络系统的硬件成本日益降低,维护成本相对增高,则需要提高系统的可靠性以降低维护成本
因此,容错技术将向如下几方向发展:
随着VLSI线路复杂性增高,故障埋藏深度增加,芯片容错将应运而生,动态冗余技术将应用与VLSI的设计和生产
由于网络系统的不断发展,容错系统的结构将利用网络的研究成功,在网络中注入全局管理、并行操作、自治控制、冗余和错误处理是研究高性能、高可靠性的分布式容错系统的途径
对软件可靠性技术将进行更多的研究
在容错性能评价方面,分析法和实验法并重
在理论研究方面将提出一套容错系统的综合方法论
4.2. 容错系统的分类
容错系统的最终目标直接影响到设计原理和设计方案的选择,因而必须根据容错系统的应用环境的差别设计出不同的容错系统。
从容错技术的实际应用出发可以将容错系统分成五种不同的类型。
4.2.1 高可用度系统
所谓的可用度是指系统在某时刻可运行的概率。高可用度系统一般面向通用计算,执行各种各样其要求无法预测的用户程序。因为这类系统主要面向商业市场,它们对设计都尽量少做修改。海明编码存储器、总线奇偶校验、超时计数器、诊断、软件合法性检查等是主要的冗余方法,由词可见,这类系统的故障覆盖率较低,但在多处理机系统中,故障一旦被发现就能将其隔离,使系统继续运行或降级运行。
4.2.2 长寿命系统
长寿命系统在其生命期中(通常在5年以上)不能进行人工维修,常用于宇宙飞船、卫星等控制系统中。长寿命系统的特点是必须具有高度冗余,有足够的备件,能够经受得住多次出现的故障的冲击,冗余管理可以自动或遥控进行。
4.2.3 延迟维修系统
这种系统与长寿命系统密切相关,它能够在进行周期性维修前暂时容忍已经发生的故障从而保持系统的生存。这类容错系统的特点是现场维修非常困难、或代价昂贵,增加冗余比准备随时维修所付出的代价要少。例如在飞机、轮船、坦克的运行中难以维修,通常都要返回基地后才能进行维修。
通常,车载、机载、舰载计算机系统都采用延迟维修容错计算机系统。
4.2.4 高性能计算系统
高性能计算系统(如信号处理机)对瞬时故障(由过紧的定时容限而引起)和永久故障(由复杂性引起)均很敏感,要提高系统性能,增加平均无故障时间和对瞬时故障的自动恢复能力,必须进行容错设计。高性能计算系统的例子如CRY-1、SLAC、Dual 370/165等。
4.2.5 关键任务计算系统
对容错计算要求最严的是在实时应用环境中,其中错误的出现可能危及人的生命,或造成重大经济损失。在这类系统中,不仅要求处理正确无误,而且要求从故障中恢复的时间最短,不致影响到应用系统的执行。
4.3. 容错系统实现方法
根据执行的任务的不同以及用户所能承受的投资能力,实现容错系统的方法有好几种。下面将分析其中常用的几个方法。
4.3.1 空闲备件
“空闲备件”,其字面上的意思是系统中配置一个处于空闲状态的备用部件。的确,它是提供容错的一条途径,当原部件出现故障时,该空闲备件就不再“空闲”,它就取代原部件的功能。这种类型的容错的一个简单例子是将一台慢速打印机连到系统上,但只有在当前所使用的打印系统而出现故障时才使用该打印机作为后援。
4.3.2 负载平衡
负载平衡是另一种提供容错的途径,在具体的实现时使用二部件共同承担一项任务,一旦其中的一个部件出现故障,另一个部件立即将原来有二个部件负担的任务全部承担下来,负载平衡方法通常使用在双电源的服务器系统中。如果一个电源出现了故障,另一个电源就承担原来二倍的负载。
需要强调的是,仅仅因为系统是双电源系统并不意味着它们是负载平衡的。例如,有可能用一个电源对系统板和风扇供电而用另一个电源对存储设备供电。
在网络系统中常见的负载平衡是对称多处理。在对称多处理中,系统中的每一个处理器都能执行系统中的任何工作。这意味着,这种系统在不同的处理器之间竭尽全力保持负载平衡。正如由于这个原因,对称多处理能在CPU级别上提供容错的能力。
4.3.3 镜像
在容错系统中镜像技术是常用的一种实现容错的方法。在镜像技术中,二个部件要求执行完全相同的工作,如果其中的一个出现故障,另一个系统则继续工作。通常这种方法用在磁盘子系统中。二个磁盘的二个磁盘控制器对同样型号的磁盘的相同扇区内写入完全相同的数据。镜像技术典型的例子有:Netware SFT III、SENTINEL等。
在镜像技术中,要求二个系统完全相同,而且二个系统都完成一个任务。当故障发生时,系统将其识别出来并切换到单子系统操作状态。
事实证明,对磁盘系统而言镜像技术能很好地工作,但如果要实现整个系统的镜像是富有挑战性的。其原因是在二台机器上对内部总线传输和软件产生的系统故障等事件使用镜像技术是存在一定困难的。
4.3.4 复现
复现又称延迟镜像,它是镜像技术的一种变种。在复现技术中,需要有二个系统:辅助系统和原系统,而且,辅助系统从原系统中接受数据,这种数据的接收存在一定的延时。当原系统出现故障时,辅助系统就接替原系统的工作。利用这种方式用户就可以在接近出故障的地方重新开始工作。复现与镜像的主要不同之处在于重新开始工作。复现与镜像的主要不同之处在于在原系统上建立的数据被拷贝到辅助系统上时存在着一定的时间延迟,换句话来说,复现并非是精确的镜像系统,工作时所引起的中断并不是可以忽略的。尽管如此,在高可用性系统中还使用复现技术的原因是可以将这些系统设计成复现过程进行得很快,在高可用性系统中还使用复现技术的原因是可以将这些系统设计成复现的过程进行得很快,在原系统将数据写到磁盘上之后能够很好就完成,这样可以减少网络上数据的丢失。
复现系统如要代替原系统在网络系统充分发挥其作用就必须复现原系统的安全信息和机制,包括用户ID、登录初化、用户名和其它授权过程。在时常上销售的一些复现产品中上述所讲的这些安全信息和机制并不是自动满足的,需要网络管理人员用手工设置这些系统安全性参数以保证用户能用完全安全的方式登录。当然,这样在原系统发生故障时影响辅助系统取代的速度。
4.3.5 冗余系统配件
在系统中重复配置一些关键的部件可以增强故障的容错性。被重复配置的部件通常有如下几种:
l 主处理器
l 电源
l I/O设备和通道
采用冗余系统配件的措施有些必须在系统设计之时就得考虑进去,有时则可以在系统安装之后再加进去。
电源
在网络系统使用双电源系统已经较普遍,这二个电力供应是负载平衡的,这就是说,当系统工作时它们都为系统提供电力,而且,当其中的一个电源发生故障时,另一个电源就得自动地承担起整个系统的电力供应,以确保系统的正常运行。这样必须对要求保证每一个供电系统都有独自承受整个负载的供电能力。
通常,在配有双电源系统的系统中,也可能配置其它的一些冗余部件,如网卡、I/O卡和磁盘等等。所有这些增加的冗余设备也都消耗额外的功率,同时,也产生了更多的热情。因此,必须考虑系统的散热问题,必须保证系统的通风良好以排除所有这写额外的热量。
I/O设备和通道
从内存向磁盘或其它的存储介质传输数据是一个很复杂的过程,而且,这个过程是非常频繁的。因此,这些存储设备发出的故障之高也就不足为奇了。
为了防止出现设备故障而丢失数据,很自然就会想到使用冗余设备和I/O控制器。常用的方法是采用冗余磁盘对称镜像和冗余磁盘对称双联。前者是接在单个控制器上的,后者是连接在冗余控制器上的。双联较镜像具有更高的安全性能和处理速度,这是因为额外的控制器可以在系统的磁盘控制器发生故障时接替工作,并且二个控制器可以同时读入提高系统的性能。
主处理器
在网络系统中,虽然主处理器不会经常发生故障,但是,一旦发生了主处理器的故障,整个网络系统将处于何种状态是不难想象的。因此,为了提高系统的高可靠性,在系统中增加冗余CPU不失是一种较好的选择。
为容错而实行CPU冗余配置的挑战存在于内存、缓冲区和任务管理之中。辅助CPU必须能精确地追踪原CPU的操作,同时又不影响其操作。实现的一个方法是在辅助处理器中应用镜像技术跟随原处理器的状态。如果原处理器出来故障,辅助处理器在内存存储器中已装载了必要的信息并能接过对系统的控制权。
对称多处理机在某种程度上提供了系统的容错性。例如,在双CPU机器中,如果其中一个CPU发生了故障,系统仍能在另一个CPU上运行。不过在故障CPU上运行的那个过程可能会出现失败的情况。多处理对操作系统,对不同的处理器上运行的任务间的存储管理的能力有非常大的依赖。因此,一个多处理系统中的一个处理器出现故障而导致机器的崩溃并不为奇。如果在一个CPU出现故障的情况下系统仍能继续运行就是容错机制在起作用。
4.3.6 存储系统的冗余
存储子系统是网络系统中最易发生故障的部分。下面介绍实现存储系统冗余的最为流行的几种方法,它们是:
l 磁盘镜像
l 磁盘双联
l RAID
l 磁盘镜像
磁盘镜像是常见的,也是常用的实现存储系统容错的方法之一。磁盘镜像时被格式化的二个磁盘的格式需相同,否则,会遇到麻烦。主磁盘和辅助磁盘的分区大小应当是一样的。如果主磁盘的分区大小辅助磁盘,当主磁盘的存储容量达到辅助磁盘的容量时就不再进行镜像操作了。
使用磁盘镜像技术对磁盘进行写操作时有些额外的性能开销。只有当二个磁盘都完成了对相同数据的写操作后镜像磁盘对的写操作才算结束,所用的时间较一个磁盘的写入次数据要长一些。利用磁盘镜像技术对一个磁盘进行读数据操作时,另一个磁盘可以将其磁头定位在下一个要读的数据块处,这样,比起用一个磁盘驱动器进行读操作要快得多,其原因是等待磁头定位所造成的时间延迟减少了。
磁盘双联
在镜像磁盘对中增加一个I/O控制器便称为磁盘双联。它由于对I/O总线争用次数的减少而提供了系统的性能。I/O总线实质上是串行的,而并非并行的,这意味着连在一条总线上的每一个设备是与其它设备共享该总线的,在一个时刻只能有一个设备被写入。如果在镜像磁盘对中每一个磁盘都分别有一个控制器,那么,总线被争用的情况就得到改善。
RAID
RAID(冗余磁盘阵列)是一种能够在不经历任何故障时间的情况下更换正在出错的磁盘或已发生故障的磁盘的存储系统,它是保证磁盘子系统非故障时间的一条途径。
RAID的另一个优点是在其上面传输数据的速度远远高于单独一个磁盘上传输数据时的速度。即数据能够从RAID上较快地读出来。这是因为总线能够比往单独一个磁盘上快得多的持续传输数据。
RAID级别
冗余磁盘阵列的实现有多种途径,这完全取决于性能的种类、成本费用以及所需的非故障时间。目前所使用的RAID是以它的级别来描述的,共分4个级别,它们是:
l 0级RAID
l 1级RAID
l 3级RAID
l 5级RAID
0级RAID在四个磁盘上条状化数据且不带校验。0级RAID系统没有内置冗余度,通常用于数据的稳定性并不是很重要,但却要求高速数据传输的场合。这中0级RAID系统的最大缺点是其中的任何一个磁盘出现故障,将会导致所有磁盘上的数据都会丢失。作为一种改进,有些产品采用对磁盘进行顺序写入的0级RAID系统。这种系统当一个磁盘出错时,其余三个磁盘上的数据可以被保留下来,不过,它是已降低性能为代价的。
1级RAID系统是磁盘镜像,数据不条状化。这类RAID系统的成本较高,因为每一个磁盘都得配一个额外的磁盘作为它的冗余配置。此外,这种类型的系统的写入速度相对而言较慢,但却有较好的读性能。
3级RAID系统在四个磁盘之间进行条状数据写入,由专用的校验磁盘,即校验信息写入的第五个磁盘,在这类系统中,如果其中的一个磁盘坏了,可以将一个新的磁盘插入RAID插槽中,然后可以通过计算其余三个磁盘和校验磁盘上的数据重新在新的磁盘上建立数据。
5级RAID系统与3级RAID相似,有20%的盘用于冗余的目的,在五个磁盘上实现条状数据,校验也是条状的。在该系统中,任何一个磁盘都可以被更换,更换后的数据由其余磁盘上的数据通过计算建立。
检验
在上述几种RAID实现方法中除1级和0级RAID系统不用校验外,其余二种都采用了校验磁盘。冗余磁盘阵列系统中使用EXCLUSIBE OR(异或)算法建立写到磁盘上的校验信息。它是通过硬件芯片而不是处理存储空间来完成的。因此,具有相当快的计算速度。
校验的主要功能是当系统中某一个磁盘发生故障需要更换时,使用校验重建算法由其它磁盘上的数据重建故障磁盘上的数据。
RAID控制器采用校验相类似的方法可以在插入RAID插槽中的新的替换磁盘上重建丢失的数据。这种方法称校验重新。
校验重建是一种颇为复杂的过程,重建进程需要记住它被中断时已经重建的磁道,记住这些磁盘都是同步运转的,写入操作必须协调进行。如果这时有新的数据需要更新写入磁盘,情况会变得更为复杂。校验重建在重建开始时将会导致系统性能的很大的下降。
设备更换
RAID系统提供二种更换设备的方法:
l 热更换
l 热共享
热更换指的是,在冗余磁盘阵列接入系统,给系统提供磁盘I/O功能时,可以从其插槽中插入或拔出设备的能力。热共享设备是指在RAID系统的插槽中的一个额外的驱动器,它可以在任何磁盘出现故障时自动地被插入到RAID阵列中去。这种设备常用于安装了多个RAID阵列的RAID插槽中。
RAID控制器
冗余磁盘阵列系统是由多个磁盘组成的一个系统,但是,从宿主机的I/O控制器来看,RAID系统仿佛是一个磁盘。在RAID系统中还有另一个控制器,它才是真正执行所有磁盘I/O功能的部件,它负责多种操作,其中包括写入操作事重建校验信息和校验重建的操作。RAID系统的不少功能是由该控制来决定的。
冗余的RAID控制器能够提供容错,也能为冗余磁盘阵列提供容错的功能。
4.4. 网络冗余
在网络冗余作为传输数据介质的线路和其它的网络连接部件都必须有持续正常运行时间的备用途径。本节将讨论提高主干网、网络互连设备的可靠性的途径。
4.4.1 主干网的冗余
主干网的拓扑结构应考虑容错性。网状的竹竿拓扑结构,双核心交换机、冗余的配线间连接等,这些都是保证网络中没有单点故障的途径。
双主干
主干被用来连接服务器或网络上其它服务设备。通常,这些主干都具有较高的网络速度才能使服务器达到更好的性能。因此,当为服务器提供网各服务时,如果它发生了故障,即使服务器仍能运行,但实际上已经不能用了,因为对其访问被切断了。这就是使用双主干网络的原因所在。
使用双主干网络的网络系统中,如果原网络发生故障,辅助网络就会承担数据数据传输的服务。双主干的概念与网络拓扑结构无关,它更有助于实现Token - Ring、Ethernet、FDDI。
双主干往在具体实施的时候,对于辅助网络最好是沿着原网络不同的线路铺设。
4.4.2 开关控制设备
在网络系统中,集线器、集中器或开关设备。由开关控制的10Base-T和ATM网络系统中,每一台机器与网络的连接都是通过一些开关设备实现的。在这些网络中,可以通过在设备之间提供辅助的高速连接来建立网络冗余。这种网络设备能精确地检测出发生故障的段的能力,以及可用辅助路径来分担数据流量。
网络开关控制技术是可以通过网络管理程序予以管理的。这意味着网络中部件故障发生时可以立即显示在控制程序的界面上,并且很快地对其进行响应。此外,开关控制可以通过对数据流量或误码率的分析能提前发现故障的网段。一旦发现数据流量有异常的情况或误码率超过了某一数值的时候,马上可以知道某一网段将发生的故障。
通常,网络开关控制设备都设计成模块式的可热可更换电路板插件,这种设计的优点是当发现设备中某个电路板上的芯片损坏了,可立即用新的电路板来代替它。
双电源和电池后备如使用了开关控制设备,能够起到延长网络的非故障时间。
4.4.3 路由器
路由器是网络系统中最为灵活的网络连接设备之一。它为网络中数据的流向指明方向。目前,在网络系统中极大多数采用交换式路由器,这种路由器的性能是普通路由器的10~100倍,而价格只有后者的十分之一左右。
交换式路由器VRRP(虚拟冗余路由器)和OSPF协议,前者用于2个交换式路由器互为备份,后者用于旁路出故障的连接。
此外,交换式路由器通过复杂的队列管理机制来保证对时间敏感的应用(其数据流一般也是高优先级别的)优先被转发出目的端口。好的队列管理机制也可以进行流量控制和流量×××,以保证数据流不会拥塞交换机,以及获得平稳的数据流输出。交换式路由器的另一个功能是透过RSVP(资源保留协议)可以动态地为特定的应用保留所需的带宽和对应用层信息流进行控制,可以分辨出不同的信息流并为它们提供服务质量保证。
在网络系统中,如果服务器发生了故障需要启动备用房间里的服务器或备份中心的服务器,此时,用户们如何访问更换了地点的服务器呢?这种在用户设备和服务器之间没有直接的网络连接的情况下,可以通过改变路由器的设置,就可以用已有的线路建立连接这些处于新位置的服务器。在极端的情况下,也可以移动用户设备,在电话和网络服务供应商的帮助下,在新站点增加路由器以建立一个承担用户和服务器之间的数据流量的临时网络。
4.4.4 Pipes软件
前面所介绍的网络冗余都是通过硬设备来实现的。利用软件实现网络冗余虽说不常用,但不失是一种选择。
美国Peerlogic公司生产的Pipes软件可以绕过网络中发生故障的线路,通过其它的网络连接为用户传输数据。Pipes网络共享一个目录服务机制,能够识别出网络中所有运行Pipes的机器之间所有可能的路由。该软件具有智能出错控制功能,使Pipes能动态并透明地在原始路由发生问题时使用其它的路由维持网络通信。这样的路由包括使用不同的通信协议的路径。
需要说明的是Pipes并不是被设计用来安装在网络上的每台机器上的,它一般用来在能提供冗余和容错服务的中件开发平台上开发分布式应用程序。因此,如使用Pipes这类产品需要一些计划和开发工具。
5. 数据库备份与恢复
“数据”是财富这一点在当今信息社会中大家是有共识的。数据库的失效往往导致一个机构的瘫痪。然而,不幸的是任何一个数据库系统总不可能不发生故障。数据库系统对付故障有二种办法:其一是尽可能提高系统的可靠性;另一种办法是在系统发出故障后,把数据库恢复至原来的状态。仅仅有第一点是远远不够的,必须有第二种办法,即必须有数据库发生故障后的恢复原状态的技术。
5.1. 数据库备份的评估
数据库如果发生故障可能会导致数据的丢失,要恢复丢失的数据,必须对数据库系统作备份。在此之前,对数据库的备份作一个全面的评估是很有必要的。
5.1.1 数据库的特性
网络系统中的数据库不同于网络上其它的应用程序。下面对数据库的一些特性作简单的介绍,以利于对数据库的备份。
多用户
网络系统中服务器是用来共享资源的,不过,存储在服务器中的大多数文件是用来给单用户访问的。但是,网络系统上的数据库却又是提供给多个用户访问的。这意味着对数据库的任何管理操作,其中包括备份,都会影响到用户的工作效率,而且不仅是一个用户而是多个用户的工作效率。
高可靠性
网络系统数据库有一个特性是高可靠性。因为,多用户的数据库要求具有较长的被访问和更新时间,以完成批任务处理或为其它时区的用户提供访问。
在数据库备份中提到的所谓“备份窗口”指的是在二个工作时间段之间用于备份的那一段时间,在这段时间内数据库可被备份,而在其余的时间段内,数据库不能被备份。通常考虑将这段时间安排在LAN处于“安静”状态的时候,此时,LAN不做任何工作,并且所以的文件被关闭,因此,可以在不干扰用户的情况下进行备份。
频繁的更新
数据库系统中数据的不断更新是数据库又一特性。一般而言,文件服务器没有太多的磁盘写入操作。但数据库系统由于是多用户的,对其操作的频率以每秒计远远大于文件服务器。
文件大
数据库一般较文件有更多需要备份的数据和更短的用于备份的时间。另外,如果备份操作超过了备份窗口还会导致用户访问和系统性能方面的更多的问题,因为这时数据库要对更多的请求进行响应。
5.1.2 备份方案的评估
对数据库备份方案的评估主要指的是在制定数据库备份方案之前必须对下列问题进行分析,在分析的基础上作出评估:
l 对数据库保护的内容
l 对数据被丢失必须作出其损失的评估
l 备份所需的费用的评估
l 备份所需的费用的评估
虽然说“数据”是一种财富,数据库的运行对一个机构会带来极大的帮助和好处,但对数据库作备份时必须权衡不同的备份保护等级的费用。如果数据花10000元就可以重新得到,并且可能三年才会丢失一次数据,那么,如果每年需花5000元去保护这些数据,就没有意义了。因此,在作数据库备份之前,需要考虑如下的几个费用与风险问题:
费用能负担得起吗?如果负担不起,需采用其它能负担得起的方式
所采用的措施能改善现状吗?
在所采用的措施实施过程中会产生其它的问题吗?这其中包括所采用的方法在有用户使用系统时进行会受到什么影响?以及是否导致工作效率的降低?等等
该措施有所值吗?最坏的情况下会损失什么?
技术评估
数据库备份通常是一种要么全有要么全无的事情——如果不备份整个数据库,就不能将它恢复到系统上之后使用它。对极大多数数据库系统来说,数据库的任何更改都需要对整个数据库做完全备份。因此,在数据库备份前需要在备份的技术上必须作出评估。
在对数据库做备份时最大的问题是备份打开的文件,因为这样做可能导致其备份拷贝失去数据完整性。
在前面已讨论过的在线数据库的主要特性中,有二个特性是频繁的更新和在用户需要时的可访问性。为了提高这些特性的功能,要求数据库系统在运行时使其数据库文件保持被打开的状态。这就意味着在数据库备份的过程中可能发生数据库文件的被更新。
数据库备份过程中的更新有如下几种情况:
l 更新发生的文件已被拷贝的区域
在备份过程中,文件的A处有一次数据库的更新,该更新发生在备份进程已经拷贝了该信息后,即更新发生在文件已被拷贝的那个区域中,对文件任何其他的部分没有影响,备份文件仍是完整的,一旦系统需要恢复,该文件仍能被恢复到它原始状态。重新输入在备份开始后所发生的更新将数据库恢复到出故障前一时刻的状态。
l 更新发生在文件未被备份区域
这类更新也不会成问题。如果数据库需要恢复,该数据库文件就会恢复到一个包括B点的更新的完整状态。如将数据库恢复到故障的前一时刻的状态需要输入在备份结束后发生的那些更新。
l 二种不同状态处文件的更新
因为文件的备份拷贝包括了A点处信息未改变的状态和B点处信息已被改变的状态。数据库文件的备芬拷贝现在失去了完整性。当这种情况发生时,相关数据可能变得没有意义,甚至还会导致数据库系统的崩溃。
l 冷备份
所谓冷备份就是脱线备份。尽管在前面讨论过的更新不可能被写到数据库文件中时对数据库进行备份仍是有意义的,但毕竟不是好的办法。为了防止更新发生的最好办法是在开始对其进行备份之前将数据库关闭,即进行冷备份。
冷备份通常在系统无人使用的时候进行。冷备份的最好办法是建立一个批处理文件,该文件在指定的时间先关闭数据库,然后对数据库文件进行备份,最后再启动数据库。
5.2. 数据库备份的类型
常用的数据库备份的方法有如下三种:
l 冷备份
l 热备份
l 逻辑备份
5.2.1 冷备份
本章的上一节已经讨论过冷备份。冷备份是思想是关闭数据库系统,在没有任何拥护对它进行访问的情况下备份。这种方法在保持数据的完整性方面是最好的一种。但是,如果数据库太大,无法在备份窗口中完成对它的备份,此时,应该考虑采用其它的适用的方法。
5.2.2 热备份
当数据库正在运行,更新也可能正在写入数据库所进行的备份称为热备份。数据库的热备份依赖于系统的日志文件。在备份进行时,日志文件将需要作更新或更改的指令“堆起来”,并不是真正将任何数据写入数据库记录。当这些被更新的业务被堆起来时,数据库实际上并未被更新,因此,数据库能被完整地备份。
热备份方法的一个致命的缺点是具有很大的风险性。其原因有三个:第一,如果系统在进行备份时崩溃,那么,堆在日志文件中的所有业务都会被丢失,即造成数据的丢失。第二,在进行热备份时,要求数据库管理员(DBA)仔细地监视系统资源,确保存储空间不会被日志文件占用完而造成不能接受业务的局面。最后,日志文件在某种程度上也需要做备份以便重建数据,这样需要考虑其它的文件并使其与数据库文件协调起来为备份增加了复杂性。
5.2.3 逻辑备份
所谓的逻辑备份是使用软件技术从数据库中提取数据并将结构写入一个输出文件。该输出文件不是一个数据库表,而是表中的所有数据的一个映象。在大多数客户/服务器结构模式的数据库中,结构化查询语言(SQL)就是用来建立输出文件的。该过程较慢,对大型数据库的全盘备份不太实用。但是,这种方法适合用于增量备份,即备份那么上次备份之后改变了的数据,不失为一种好的选择。
使用逻辑备份进行恢复数据必须生成逆SOL语句。尽管这个过程非常耗时,时间开销较大,但工作却非常另人满意!
5.3. 数据库备份的性能
数据库备份的性能可以用二个参数来说明其好坏,这二个参数就是被拷贝到磁带上的数据量和进行该项工作所花的时间。数据量和时间开销之间是一种很难解决的矛盾。如果在备份窗口中所有的数据都被传输到磁带上,就不存在什么问题。如果备份窗口中不能备份所有的数据,就会面临一个十分严重的问题。
通常,提高数据库备份性能的办法有如下几种:
升级数据库管理系统
使用更快的备份设备
备份到磁盘上。磁盘可以是处于同一系统上的,也可以是LAN的另一个系统上的。如能指定一个完整的容量或服务器作为备份磁盘之用的话,这种方法的效果最好。
使用本地备份设备。使用此方法时应保证连接的SCSI接口适配卡能承担高速扩展数据传输。另外,应将备份设备接在单独的SCSI接口上
使用原始磁盘分区备份。直接从磁盘分区读取数据,而不是使用危机系统API调用,可加快备份的执行
除了上述几种方法外,St.Bemard Software公司的Open file Manager产品也能提高数据库备份的性能。该产品能通过正在NLM或指定一个单一的用户ID和口令识别备份过程的能力。它能在磁盘数据写入发生之前立即捕获它们,在允许更新覆盖旧的数据之前将旧的数据写入一个磁盘高速缓存区中。然后,当备份过程遇到这这样的磁盘块时,该磁盘块的信息就被从缓存区中读出来,而不是从磁盘上读出来。采用这种办法,对打开的文件进行备份时不会丢失其完整性,使其保持它在t=0时刻的状态。
Open file Manager也具有将几个小型数据库文件连在一起并用类似的方法将它们的更新写入缓冲区的能力。用这种方法,就可以保证它们全部被作为一个单独的数据库文件被备份,因而具有全部的数据完整性。
5.4. 系统和网络完整性
保护数据库的完整性,除了前面已经讨论过的提高性能的技术之外,也可以通过系统和网络的高可靠性得以实现。
5.4.1 服务器保护
服务器是LAN上的主要机器,如果保护网络数据库的完整性,必须作好对服务器的保护。保护服务器的办法包括:
电力调节,以保证能使服务器运行足够长的时间以完成数据库的备份
环境管理,应将服务器置于有空调的房间,通风口和管理应保持干净,并定期检查和清理
服务器所在房间应加强安全管理
作好服务器中硬件的更换工作,从而提高服务器中硬件的可靠性
尽量使用辅助服务器以提供实时故障的跨越功能
通过映象技术或其它任何形式进行复制以便提供某种程度的容错。接收复制数据的系统应具有原系统的故障后能代替它在线工作的能力。这种类型的方案可以减少在系统故障之后网络数据库的损失。但这种方案不适用于原系统一次更新进行时中间发生的故障。
5.4.2 客户机的保护
对数据库的完整性而言,作好对客户机或工作站的保护如同服务器一样重要。对客户机的保护可以从如下几个方面进行:
电力调节,保证客户机正常运行所需的电力供应
配置电池后备,确保电力供应中断之后客户机能持续运行直至文件被保存和完成业务
定期更换客户机或工作站的硬件
5.4.3 网络连接
网络连接是处于服务器与工作站或客户机之间的线缆、集线器、路由器或其它类似的设备。为此,线缆的安装应具有专业水平,且用的配件应保证质量,还需配有网络管理工具监测通过网络连接的数据传输。此外,包括电池后备在内的电力调节设备也应该用于所有的网络连接部件。如果可能的话,应该为网络设计一条辅助的网络连接路径,即网络冗余路径,如双主干方案,或用开关控制连接,以便能快速地对网络连接故障作出反应并为用户重新建立连接。
5.5. 数据库的恢复
数据库系统对付故障无非采用如下二种措施:
l 尽可能地提高系统的可靠性
l 在系统发生故障后,把数据库恢复到原来的状态
仅仅提高系统的可靠性是远远不够的。因为任何一个系统,无论其可靠性有多高,故障的发生总是难免的。在系统故障发生后,把数据库恢复到原来状态的技术,即恢复技术。
5.5.1 恢复技术的种类
恢复技术大致可以分为如下三种:
l 单纯以备份为基础的恢复技术
l 以备份和运行日志为基础的恢复技术
l 基于多备份的恢复技术
单纯以备份为基础的恢复技术
单纯以备份为基础的恢复技术由文件系统恢复技术演变过来的,即周期性地把磁盘上的数据拷贝或转储到磁带上。由于磁带是脱机存放的,系统对它没有任何影响。当数据库失效时,可取最近一次从磁盘拷贝到磁带上的数据库备份来恢复数据库,即把备份磁带上的数据库拷贝到磁盘的原数据库所在的位置上。利用这种方法,数据库只能恢复到最近备份的一次状态,从最近备份到故障发生期间的所有数据库的更新将会丢失。这意味着备份的周期越长,丢失的更新数据也就越多。
数据库中的数据一般只部分更新,很少全部更新。如果只转储其更新的物理块,则转储的数据量会明显减少,也不必用过多的时间去转储。如果增加转储的频率,则可以减少发生故障时已被更新过的数据的丢失。这种转储称为增量转储(incremental dumping,简称ID)。
利用增量转储作备份的恢复技术实现起来颇为简单,也不增加数据库正常运行的开销,其最大的缺点是不能恢复到数据库的最近一致状态。这种恢复技术只适用于小型的和不太重要的数据库系统。
以备份和日志为基础的恢复技术
系统运行日志用于记录数据库运行的情况,一般包括三个内容:
l 前象(before p_w_picpath,简称BI)
l 后象(after p_w_picpath,简称AI)
l 事务状态
前象
所谓的前象是指数据库被一个事务更新时,所涉及的物理块更新后的映象,它以物理块为单位。前象在恢复中所起的作用是帮助数据库恢复更新前的状态,即撤消更新,这种操作成为撤消(undo)。
后象
后象恰好与前象相反,它是当数据库被某一事务更新时,所涉及的物理块更新前的映象,其单位和前象一样以物理块为单位。后象的作用帮助数据库恢复到更新后的状态,相当于重做一次更新。这种操作在恢复技术中称为重做(Redo)。
事务状态
运行日志的事务状态记录每个事务的状态以便在数据库恢复时作不同处理。
事务提高而结束,这说明事务已成功执行,事务对数据库的更新能被其他事务访问
事务失败,需要消除事务对数据库的影响,对这种事务的处理称为卷回(rollback)
基于备份和日志为基础的这种恢复技术,当数据库失效时,可取出最近备份,然后根据日志的记录,对未提交的事务用前象卷回,这称后恢复(backward recovery);对已提交的事务,必要时用后象重做,称向前恢复(forward recovery)。
这种恢复技术的缺点是,由于需要保持一个运行的记录,既花费较大的存储空间,又影响到数据库正常工作的性能。它的优点可使数据库恢复到最近的一致状态。大多数数据库管理系统也都支持这种恢复技术。
多备份恢复技术
多备份恢复技术的前提是每以个备份必须具有独立的失效模式(independen failure mode),这样可以利用这些备份互为备份,用于恢复。所谓独立失效模式是指各个备份不致于因同一故障而一起失效。获得独立失效模式的一个重要的要素是各备份的支持环境尽可能地独立,其中包括不共用电源、磁盘、控制器,以及CPU等。在部分高可靠要求的系统中,采用磁盘镜像技术,即数据库以双备份的形式存放在二个独立的磁盘系统中,为了使失效模式独立,二个磁盘系统有各自的控制器和CPU,但被此可以相互切换。在读数时,可以选读其中任一磁盘;在写数据时,二个磁盘都写入同样的内容。当一个磁盘中的数据丢失时,可用另一个磁盘的数据来恢复。
基于多备份的恢复技术在分布式数据库系统中用得比较多,这完全出于性能或其它考虑,在不同的结点上设有数据备份,而这些数据备份由于所处的接点不同,其失效模式也比较独立。
5.5.2 易地更新恢复技术
每个关系有一个页表,页表中每一项是一个指针,指向关系中的每一页(块)。当更新时,旧页保留不变,另找一个新页写入新的内容。在提交时,把页表的指针从旧页拨向新面,即更新页表指针。旧页实际上起到了前象的作用。由于存储介质可能发生故障,后象还是需要的。旧页又称影页(Shadow)。
在事务提交前,其他事务只可访问旧页;在事务提交后其他事务可以访问新页。事务如在执行过程中发生故障,故障发生在提交之前的,称数据库状态为BI;故障发生在提交之后的,则数据库状态为AI。显然,这自然满足了数据的一致性要求,在数据库损坏时,需用备份和AI重做。在数据库未遭损坏时,不需要采用恢复措施。
易地更新恢复技术有如下限制与缺点
同一时间一个文件只允许一个事务对它进行更新
提交时主记录一般限制为一页,文件个数受到主记录大小的限制
文件的大小受页表大小的限制,而页表的大小受到缓冲区大小的限制
易地更新时,文件很难连成一片
因此,易地更新恢复技术一般用于小型数据库系统,对大型数据库系统是不适用的。
5.5.3 失效的类型及恢复的对策
一个恢复方法的恢复能力总是有限的。一般往往只对某一类型的失效有效,在任何情况下都适用的恢复方法是没有的。在前述的恢复方法中都需要备份,如果备份由于不可抗拒的因素而损坏,那么,以前所述的恢复方法将无能为力。通常的恢复方法都是针对概率较高的失效,这些失效可分为三类。
事务失效(transaction failure)
造成事务失效的原因有:
l 事务无法执行而自行夭折
l 操作失误或改变主意而要求撤消事务
l 由于系统调度上的原因而中止某些事务的执行
事务失效是经常发生的,这种失效一定发生在事务提交之前,事务一旦提交即使撤消也不可能了。对事务失效采取如下措施以予恢复:
l 消息管理丢弃事务的消息队列
l 如果需要进行撤消
l 从活动事务表(active transaction List)中删除该事物的事务标识,释放该事务占用的资源
系统失效
这里所指的系统包括操作系统和数据库管理系统。系统崩溃,必须重新启动,内存中的数据可能丢失,而数据库中的数据未糟破坏。发生系统失效的原因有:
l 掉电
l 除数据库存储介质外的硬、软件故障
l 重新启动操作系统和数据库管理系统
l 恢复数据库至一致状态时,对未提交的事务进行了undo操作,对已提交的事务进行了redo的操作
介质失效(media failure)
介质失效指磁盘发生故障,数据库受损,例如划盘,磁头破损等。
在现代的DBMS中,对介质失效一般都提供恢复数据库至最近一致状态的措施,具体过程如下:
l 修复系统,必要时更换磁盘
l 如果系统崩溃,则重新启动系统
l 加载最近的备份
l 用运行日志中的后象重做,取最近备份以后提交的所有事务
从介质失效中恢复数据库的代价是较高的,而且要求运行日志提供所有事务的后象,工作量是很大的。但是,为了保证数据的安全,这些代价是必须付出的。
6. 灾难恢复计划
任何一个计算机系统或计算机网络系统都没有什么办法完全免受每一种天灾或人祸的威胁,特别是诸如能够摧毁整个建筑物的地震、火灾、×××等大规模的环境威胁。大灾之后的对计算机网络的恢复,对一个专业系统管理员或网络管理员来说,所能遇到的是最具挑战性的操作之一,灾难之后,可能无法回到原先日常工作的位置,也可能没有任何进行日常工作所使用的管理工具,甚至可能在没有助手的帮助下展开工作……。凡此种种,要求进行灾后的恢复工作,这种困难的程度对一般的人来说是难于想象的,成败如何也难于预测。因此,防患于未然,提前作好准备工作乃是成功的关键所在。
本章仅提供网络用户需要在灾难恢复计划中使用的信息的提纲,并可以作为编写计划的一个样板。有了这些基本知识后,就可以安排时间和资源来编制一个内容广泛,可用的灾难恢复计划。
6.1. 灾难恢复计划制定的准备
灾难恢复计划是决定某一机构的计算机网络系统受到灾难性打击或破坏时,必须对网络系统进行恢复时要做些什么的过程。因此,必须谨慎地考虑在这类灾难发生后怎样才能以最快的速度对网络进行恢复,把灾难所带来的损失尽可能地减少到最小。
制定一个灾难恢复计划对任何一个网络用户来说是一件非常重要的事情。不幸的是,灾难恢复计划常被放在一边等到以后再做,有的LAN用户压根儿未考虑个需要制定这样一个灾难恢复计划,对它的意义以及内涵根本不理解或者很不理解。
网络灾难恢复计划的问题之一是要指出从何处开始,这也是制定计划的一个原则问题。
6.1.1 从最坏情况考虑计划制定
灾难给计算机网络系统所带来的破坏程度和被破坏的规模是无法估计到的。在制定灾难恢复计划时,应该以最坏的情况去考虑,把对网络系统遭破坏的情况尽量考虑得周密一些,以便安排时间和充分利用现有的资源创建一个内容广泛切实可用的灾难恢复计划。
6.1.2 充分利用现有资源
在各种各样的资源中,人力资源无疑是最宝贵也最有价值的。计算机网络灾难恢复计划的制定除了主管网络的领导和网络管理员外,应有具有重建不动产和服务安排方面知识的人参与,他们的工作不一定非要针对计算机网络系统的恢复,他们可以被指定承担研究和计划在灾难之后重新开始工作的任务。如果能够把机构中的这些资源充分利用起来,就可以在灾难恢复计划中使用他们的技能和知识而节省大量的时间。
6.1.3 执行计划的计划
通常,一个网络系统可能需要几年的时间来设计和建立,突然之间要求在几天或几星期内重建网络,谈何容易!这需要有能保证成功的所有技能和详细的组织安排的计划。
从灾难中恢复应该是小组的集体行为,但除非所有的小组成员都明确知道计划的原则和处理过程,否则小组的工作是极难展开的,不论在灾难恢复中采取什么行动,都应该明确清晰无误地通报给任何需要了解的人。经常改变以及没有与其他人有效沟通的灾难恢复计划几乎与完全没有计划一样糟糕。
一个预先准备好的文本能有助于避免向其他人解释决定背后的原因所带来的压力,并且也免受他人的猜疑和责难,当灾难性的事件突然发生的时候,按既定方针有条不紊地进行恢复工作,从废墟上重建网络系统。
6.2. 灾难恢复方法论
灾难恢复方法论的依据是必须了解和掌握网络系统的备份和数据的存储,这样才可以考虑一旦灾难发生时需要做些什么事以及怎么样去做。
灾难恢复方法论有几种不同的分析方法,但基本原则是一样的,其主要的要点如下:
l 风险分析
l 风险评估
l 应用优先级
l 恢复需求的建立
l 建立文本
l 计划测试和实施
l 计划分发和维护
6.3. 灾难恢复计划
灾难恢复计划过程的最终目的是产生一个灾难发生后能够实施的“灾难恢复计划文件”。这样一个计划文件具有相当的凝聚作用,通过给恢复小组中的每个成员一个指令性的必须遵照的执行的责任和处理过程清单,使整个恢复小组的每一个人发挥其聪明才干,把恢复工作做到实处。
6.3.1 数据的备份
灾难的预先准备应该从保证有进行恢复的数据开始。虽然,在一个灾难恢复计划不一定把备份操作作为它的一部分,但好的可靠的备份操作应该是灾难恢复计划的一个先决条件。否则,谈论恢复是在浪费时间。因此,在考虑灾难恢复计划的时候,就应该能准备以防灾难万一发生的一些事情:
l 每天进行备份操作并检查备份的完整性
l 经常进行磁带的脱机转换以保证在发生站点灾难时的可恢复性
l 了解、熟悉、掌握如何使用备份系统进行数据的恢复
众所周知,在对数据的备份操作中有时可能会出错。如果有数据丢失或一开始就没有写入介质的备份是无法用于系统的恢复的。因此,对备份需要进行校验,确保备份的完备性。
定期对备份介质进行脱机转换能使遭到严重灾害的站点免于全部的损失。建立一种定期将磁带转存到脱机地点的规则可以保证在紧急情况发生时仍能对数据访问。
6.3.2 风险分析
根据灾难恢复方法论,风险分析是灾难恢复计划的第一步。风险分析的中心内容包括下列三个方面:
l 什么面临风险
l 什么会出现问题
l 发生的可能性是多少
什么面临风险
在灾难中什么面临风险?这个问题说说较容易,但真的要把它列为灾难恢复计划中的一部分时却不是那么简单了,需要综合考虑其网络系统中的所以组成部分,包括服务器、工作站或客户机、数据,以及与外界联系的通信设备等等。网络系统中所有组成部分的结构图可以帮助建立一份在灾难之后需要更换的物品清单。要记住软件也需要更换,而且需要对所有的软件产品进行鉴别,包括那些用于网络操作的文件系统工具。
需要更换的物品清单中的一遗漏会很容易地使在灾难之后的恢复贡献无法进行。例如,如果没有连接调制解调器的串行线,进行远程访问的应用程序等就无法工作。
人,特别是关键的人物的风险尤为重要,但却经常被忘却。关键人物如果在灾难中受伤,因而其他的人要代其行使责任。因此,在平时进行交叉训练能减少当一位关键人物无法参与恢复工作时所受到的冲击。
此外,在每一个网点备一份最重要的应用程序的手册是必要的。
什么会出问题?
“什么会出问题?”这在灾难恢复计划中是一个有趣味的问题。对这个问题的回答可以从直接的到几乎无法相信的都有。大千世界,不可预知的灾难都是可能发生。洪水、水灾、暴风雪等是相当常见。对此应该有一个防范的、切实可行的对策。例如,火灾时,大火四周的热、烟雾和自动洒水灭火系统灭火时喷射出来的水对计算机网络系统有恶性的损坏作用。存储介质很容易被高温和烟雾毁坏,大火之后有毒残留物的清理会持续相当一段时间,这意味着扑灭大火之后没有可能在一点时间内接触系统和数据。作为一个对策,可以让一些训练有素的专家穿着防护服进入着火的建筑物中,取回数据出来装置,然后试图从磁盘中恢复数据。
不幸的是,人为的错误和人为的有意的破坏可能是数据丢失或毁坏最可能的原因。如果类似这样的错误导致网络系统出问题,它就和其他种类的灾难一样,应该被认真对待。
发生的可能性是多少?
对于这个问题的回答需要进行一些财政预算上的考虑。对于不同级别的保护和准备估算几种不同的预算是有益的。如果无法支付免受某些威胁所需的费用,但至少也得知道这些威胁是什么,因而可以在将来对计划进行改进。
6.3.3 风险评估
这里所指的风险评估应理解为由于网络服务的破坏导致的商业损失。通常,灾难所造成的损失可以按如下项目进行分解:
l 更换网络系统设备的实际费用
l 生产损失
l 机会损失
l 信誉损失
系统设备和软件的实际损失相对来说较容易计算,可以根据网络系统组成的清单,即计算其相应的价值。
由于网络系统的损失而导致的生产损失可以使用以往生产的有关信息进行计算。
机会损失的评估包括二个方面的内容:其一,由于网络的故障造成的销售收入损失,其二,市场机构的收入损失。
信誉损失是无形的很难用具体的数字以予衡量,但也得将其纳入评估之中。
6.3.4 应用程序优先级别
灾难发生之后,开始重新恢复系统,首先需要恢复的应用系统应是与生产经营最急需的部分,千万不要把精力和时间浪费在恢复错误的系统和数据上。通常,一个机构总有多个部门,总有多个应用系统,各部门总是把与自己部门有关的应用列为“最重要”,但实际上并非这些应用系统最重要,因此,高级管理人员帮助确定系统恢复的顺序是十分重要的,也是十分必要的。
灾难恢复计划应包括系统恢复时的先后顺序的清单,而且,应由高级管理人员在此清单上签字以减争论。
在知道了需要恢复的内容以后,就应该对那些系统重新恢复功能所需要的东西进行清点。网络上的应用系统由一些服务系统组成,其中应用程序存储其数据、工作站系统对其进行处理、打印机或传真机用于I/O、网络连接部分将这些东西连接在一起,以及应用软件。如果网络结构采用客户机/服务器模式或分布式应用程序,由于要求应用程序的不同部分驻存在不同的机器上,这样更增加了额外的复杂程度。
当网络管理人员与高级管理人员一起决定了应用程序的有限级别后,还得确定使系统可用所需的最少数目的工作站数。在系统正常运转起来后再逐步加大网络的规模。
进行应用系统恢复的一个好处是与恢复整个服务器相比恢复一个应用程序所需要的时间要少一些。但是,采用这种方法需要比目前更多地了解系统。首先,需要知道应用程序要用的那些数据都在那里,以及文件系统的依赖关系是什么。如果有些包含应用程序信息的系统文件,例如Windows的.ini文件那样的情况,就需要保证这些文件也与应用程序一起恢复。其次,还得需要知道如何用备份系统进行这种类型的选择性恢复。
为了减少使工作网络启动和运行所需的时间,将这些应用程序合并到单独的服务器上可能是最快的。
6.3.5 建立恢复需求
灾难恢复计划中的建立恢复需求的核心是决定使功能网络能重新运行的可接受而又可达到的时间长度,即所谓的恢复时间目标(recovery Time objective,缩写RTO)。决定的RTO应该被测试过以保证它是实际可行的。不同的应用程序会有不同的RTO。
6.3.6 实际灾难恢复文本的产生
灾难恢复计划的内容
网络灾难恢复计划的主要内容有:
l 人员通知单、电话号码、地图,以及地址
l 优先级别、责任、关系、以及过程
l 获得和购买信息
l 网络示意图
l 系统、配置、以及磁带备份
要保证当灾难发生时应先通知谁。例如,如果发生了火灾,先给消防队打电话。如果没有最新的电话号码或地址,就很难与需要寻找的人联系上。
显示临时操作中心和脱机设施位置的地图会节省不少时间。显示备用的路线以防原来的路线出现问题也是有用的。
考虑如何对灾难作出反应时,将精力集中在建立的优先顺序上。应立即开始着手恢复最优先的应用程序。应该给人们明确的指示和责任。任务之间的关系形成文本,这样就可以发现存在的任何瓶颈。最后,把精确的安装和恢复操作的详细操作步骤和任务应被包括在其中。
获得和购买信息所说的是应该知道如何发出采购单并将设备运到临时操作中心。这意味着要提供销售商的地址和所需的运输方法。
网络示意图大大简化了建立网络的任务。用于首先家你的几个应用程序的详细的网络示意图能有助于很快把网络建立起来并投入运行。给一些线缆贴上标签能在以后减少很多的混乱。
如果能贮备一些能处理各种不同任务的替换系统就可以使恢复操作赢得时间。在替换系统开始运行之后,再根据发货报告中得到的配置信息将系统恢复到原来的配置。
需要确保可用的磁带备份系统,如果可能的话,脱机保存一个备用系统,包括SCSI适配器、线缆,以及设备驱动软件。如果需要对工作备份升级,那么,也要对脱机系统进行升级,否则,可能会遇到不兼容的磁带格式,数据库或其他问题使其无法恢复数据。
管理支持
网络环境灾难恢复计划的问题之一是计算机网络技术的发展非常快,这包括新的设备和新的应用系统。因此,对已经编写的计划应该定期进行调整或更新,如一年一次。
6.3.7 计划的测试和采用
对于已经编写好的计划需进行测试,这样可以向自己证明该计划是确实可行的。如果能对计划的精确性完全打开思路的话就会更好。对计划的测试是为了找出有无问题,而不只是校验计划是否可行。如果有错误就将它记下来,并进行修改。
对计划的测试应按计划的内容分布进行。对于电话号码、地址、购买信息等的测试一般说来较为简单,但对恢复数据等的测试就不那么简单了。
对备份软件进行测试得看一下是否按所希望的方式恢复高优先级别的应用程序。这应该在分离的、孤立的网络上进行,以免出现服务器许可证冲突问题。一旦数据被恢复了,测试一下,看一看用户能否访问它,这要求有多台工作站连接到网络上,模拟原来的服务器上有帐号的真实的最终用户。这时可能需要修改计划,将建立最终用户的管理信息包括进去。分别测试计划中的每个操作,然后在工作网络系统中测试看是否能得到同样的结果。
6.3.8 计划分发和维护
当一个计划经过测试而且被证明了是可用的后需要将其分发给需要它的人。对计划的发布要尽力控制,这样确保计划会出现多个版本。另外,也要保证有计划的额外拷贝存放在脱机站设施或工作地点附近的其它地方。该计划的所有人员地点的清单也需保留一份。当计划更新时,对所有这些计划副本进行更换并收回计划的前一个版本。
计划的维护较容易,其内容包括对计划回顾与通读,对需要更改的信息进行修改,与此同时,应重新评价应用程序系统并确定哪一个最重要的。如果已经更换了备份系统,就应该保证,如何使新的或己升级的备份系统的信息也包括在“修改”一类中。对灾难恢复计划进行维护能有助于各部门之间的相互通信。
上一篇:很好用的ISO制作软件
下一篇:pluswell成功案例(部分)
提问和评论都可以,用心的回复会被更多人看到
评论
发布评论
相关文章
-
Redis的数据安全与性能保障
1.持久化选项 Redis提供了2种不同的持
服务器 redis 数据