现在,较普遍的归档应用只是简单地把备份数据保存很长时间,每周或每月不加选择地进行全数据备份,再根据商业要求保存几年甚至几十年。但是,归档与备份有本质的不同,因为归档的数据可能几个月甚至几年未被使用,而一旦需要时则必须尽快获取。在备份数据中寻找特定的信息不仅耗时,而且代价很高。将备份当作归档会带来许多问题。
 
       备份系统用于归档的困境
首先,当用户需要查找几年前的一些相关资料时,就必须记住这些文件存放在什么地方。这不是一件容易的事,即使用户能记住,由于计算机平台和软件的日新月异,要找到当年的读取设备、操作系统和应用程序,甚至还需要访问权限去打开这些文件是相当费力的。
 
        其次,用备份数据来满足电子发现的要求就更加困难。例如,公司要获取某个员工在3年前某两个月内从Exchange服务器上发出的所有电子邮件,或许可以花很长时间从备份系统中恢复特定时间内在Exchange服务器上保存过的电子邮件,但如果接收者在收到该员工电子邮件的同一天把它删除了,那么被删除的电子邮件就没能在当晚的备份作业中保存。因此,严格说来,即使找到了所有已备份的电子邮件,也不能符合电子发现的特定要求。
 
        第三,恢复备份数据并进行查找会消耗大量时间和费用。试想一下,如果要把过去10年中满足某些条件的Exchange服务器上的电子邮件找出来,而公司每星期做一次备份,那么该公司的IT管理员就必须把每个恢复到Exchange服务器中的满足条件的电子邮件存入一个.pst文件,这样的手工作业至少要重复500多次。
 
        此外,备份系统用于保存归档数据是相当低效的。一个归档系统对每个文件通常保存1~2份拷贝就足够了,而备份系统却没有这样的逻辑,特别是全备份系统,每次备份总是把未删除的旧数据又保存一次,浪费了很多存储空间。随着备份格式和磁带介质更新换代,许多企业耗费了相当大的精力进行设备升级和数据拷贝、迁移以及各种转换,同时又保留旧的备份格式和旧磁带上的数据,导致不同格式数据的许多副本分散在不同的设备和介质中,对这些数据进行有效管理和查询几乎不可能。
 
       有效归档系统的特征
        一个有效的归档系统最重要的特征是包含了足够多的元数据,并能通过逻辑方式获取信息。例如,一个电子邮件归档系统的元数据应至少包括发件人、收件人、主题、时间等信息,通常还会把电子邮件主体放入数据库用于全文搜索,甚至把附件的相关信息和关键词也提取出来作为元数据保存。
归档系统的另一个重要特征是能够保存预定数量的副本。例如,一个公司可以决定把一份归档数据存放在磁盘介质的存储设备中,把另一份相同的数据存放在光盘或磁带库里,以确保数据万无一失。
 
          两类主要的归档系统
          根据保存数据方式的不同,归档系统大致可分为两类。
一类是传统的依附于备份软件的归档系统,允许用户对所选择的文件进行归档,并把有限的元数据附加上去,然后把这些归档数据的备份文件删除,以减少重复数据。这种归档的缺陷在于,如果用户想通过不同的元数据查找归档信息,就必须建立几个附加不同元数据的归档文件。因此,这类系统基本上只适用于访问率较低的归档数据。
 
         第二类归档系统意识到任何归档数据可能有不同的用途,因此需要用不同的元数据来描述。实现这类系统的关键在于对实际的归档数据只保存一份,而把所有的元数据都保存在可搜索的数据库中。这就是近年来逐渐兴起的内容寻址存储(CAS)。与第一类只在备份后才成为归档数据的归档系统不同,CAS归档系统对所有的数据都自动不间断地进行归档。一个文件或电子邮件一经产生,其中一个拷贝以及相关的元数据就被保存到归档系统中去。
 
          CAS归档的另一个优势在于,使用了单一实例和增量保存的手段。它对所有的文件或电子邮件都只保存一个拷贝,当该文件或电子邮件被修改后再次发送和保存时,归档系统能够只保存变化的字节,因而极大地节省了磁盘空间,简化了管理。这种特性使CAS归档系统频繁地出现在分级存储管理和重复数据删除应用中。
CAS归档系统
 
          国外主要的存储厂商如EMC和HP,以及一些初创企业如Bycast和Permabit等都相继推出了CAS归档产品。这些产品虽然技术路线相近,但各自的特点和针对的应用不尽相同。比如,HP RISS系统主要用于电子出件归档,而Bycast的方案局限于医疗影像的归档。国内归档市场才刚刚起步,也出现了一些归档产品。谷数科技的D-Mesh集群CAS系统可以满足多种归档的应用需求,其最显著的特点是内嵌了非结构化搜索引擎,极大地提高了元数据生成、管理和数据查找的效率,把归档技术推向一个新的高度。