近年来,企业对于数据越来越重视,数据备份系统几乎已经成为大中型企业的必备系统。但与此同时,归档系统的重视程度却相对弱很多。那么,备份和归档有何区别?如何恰当选择归档系统呢?
近日,51CTO.com记者采访了Sun公司亚太区存储业务产品技术推广主管Robert Nieboer和Sun公司大中国区存储业务部首席技术师刘颖浩,就归档系统的选择等问题进行了交流。

备份和归档区别何在?

刘颖浩告诉51CTO.com记者,现在仍然有一些用户对备份和归档混为一谈,但其实备份和归档是完全不同的两个概念。
备份已经为广大客户所熟知,其目的就是为了恢复,保证在出现意外情况时保证业务的连续进展;特别是在线备份,对速度的要求相对较高,但对容量的要求则相对较小。
归档的目的与备份完全不同。对于企业来说,每天产生的大量数据,其实是有60%-80%今后永远或者很少使用的;但出于服务质量要求、法规遵从或者 其他原因,这些数据必须保留以备查询。简言之,归档的目的是为了服务品质和保证数据的可管理,使得运行、维护、投入整体成本降低,如何最大化使用存储,保 证数据的访问,因此其方案选择也和备份有很大区别。

选择归档系统的四个原则

那么,如何选择一个适合的归档系统呢?Robert Nieboer介绍说,应该从四个方面选择归档系统的需求。
一、数据必须永远保留。无论是归档还是备份,数据的完整性必须得到保证,必须在规定的时间内保证数据的安全存储。
二、数据易于读取。虽然大部分数据重复读取的可能性不大,但归档系统依旧不是一个“死”仓库,必须保证在需要的时候能方便地读取数据,这也是归档系统的必备原则之一。
三、保证法规遵从。企业和组织在业务运作中,不仅要遵守企业自己的各项规章,而且要遵守政府和行业制定的各项法律、法 规及各种规章。例如,在美国推出的美国证券交易委员会SEC(Securities Exchange Commission)法案、萨班斯-奥克斯莱法案(Sarbanes-Oxley)法案等众多法案中,对电子记录在完整性、保密性和可存取性三个方面都 有明确规定。归档系统也必须完全符合这些要求。
四、数据的可扩展性。对于许多企业来说,数据是无时无刻不在扩展的。特别是对Web 2.0等新兴企业来说,数据的扩展速度可能远超企业建立起始时的想像。这种情况下,归档系统必须保证自身的可扩展性,以满足企业迅速增长的数据量的要求。

磁盘和磁带?哪种才是最佳归档方案

关于归档方案的选择,市场上存在不同战略。其中一种归档战略对不同类型数据生成分别的、具体的、专业性的应用,把数据分成类别进行归档。但这样做会出现一个问题,那就是可能会用到兼容性很差的技术,使得总体的可管理性比较差,总成本也会上升。
Robert介绍说,Sun的归档战略是基于系统的战略,横跨多个应用,来自于不同人、不同应用的所有数据统一到存储管理器管理起来。对于数据的存 储,采用分级别进行,在保持对归档数据可访问的前提下,有些数据存储在一级硬盘,有些存储在二级硬盘;同时,也把数据保存拷贝在成本低廉的磁带上。过了几 个月之后,根据公司各自的章程和条规的制定,可以发现很多数据没有必要在一、二级硬盘上保留,就把他们从一、二级硬盘上删掉。删掉之后,这一些数据拷贝就 主要在磁带上进行存储,因为磁带的成本低得多。(如下图所示)
四原则选择归档系统 分级存储实现安全扩展_分级
图   Sun分级归档示意图

在这种情况下,什么样的数据被存储到哪一级硬盘上,应该保留多长时间,保留几个数据的拷贝,都属于策略问题,用户根据自己公司的需要以及法规遵从等 原则,在SAM-FS存档管理器上做具体的规定,从而建立适应自己需求的个性化归档解决方案。而针对许多客户的整体需求,Sun也提供了包括一二级硬盘、 磁带库以及归档软件在内的整体解决方案(Sun称为“客户就绪无限存档系统”),同时提供相应的服务,保证客户购买了这一套系统之后立刻可以使用。
最近也有企业提出基于磁盘的归档方案,那么相当磁盘归档来说,Sun这套磁带分级归档方案的优势在哪里呢?针对51CTO.com记者的这个问题, Robert解释说:必须注意到,虽然硬盘的价格在下降,但降幅已经大大放缓;而且也一定要看到,磁带的价格也在同时下降,而且下降的速度不比硬盘慢!同 时,从长远来看,硬盘的密度已经越来越高,,在2.5英寸的磁盘之上,越来越难把更多的不同类的数据放进去,否则就无法甄别数据;而0.5英寸的磁带在一 盒里的长度可以达到一公里,而且几乎可以无限扩容。
此外,Robert进一步强调,磁带归档解决方案的另一大好处是,磁带对能耗的节省也是磁盘远远不能比的。众所周知,当数据存放在磁带时,如果不被 访问数据,那么磁带不会消耗任何的电力,也不会产生任何的热量,是真正的零电力消耗的设备!那么对客户来说,一个问题就显而易见:对于归档这种访问可能性 非常小的数据,是应该待在零电力和零热量的磁带盒里面,还是应该放在每秒5000转和10000转的磁盘上呢?——举例说,一个大型企业保存7年邮件数 据,可能90%是很少访问的;而如果把这些数据一直存储在磁盘里面、一直在运转,那么消耗的每年费用像耗电、制冷费用等,比采购产品的费用还要高很多!
除了能耗之外,架构问题也是当前企业需要考虑的问题之一。当前许多基于磁盘的归档系统的确看起来性价比很不错,但其扩展性有非常大的问题隐患,管理和扩充有可能将是数据扩展之后的梦魇。
刘颖浩介绍说,一些Web 2.0客户目前已经遇到了这些问题。出于成本等多方面考虑,许多Web 2.0网站都采用低成本的磁盘归档,但很快就会发现,数据量迅速扩充之后,虽然这些数据访问量极低,但依然占据了大量的空间,而单一磁盘解决方案却无能为 力。相对而言,大多数国外WEB2.0客户都是通过分级存储管理的架构来保证它业务快速增长,底层基于大量磁带库,这样的架构不管数据怎么样激增也可以完 全支撑,不会瘫痪。

开源?这个问题重要吗?

谈到最后,刘颖浩还特别强调了文件归档体系中开源的重要性——当然,这也是Sun长期以来的优势所在。刘颖浩称,国内很多用户没有意识到开源在存储方面的重要性,而这一点恰恰是国外用户几十年前犯的错误!我们没有理由不吸取他们的教训。
据刘颖浩介绍,存储和开放在长期数据归档上是非常重要的,特别是对政府和教育等行业,例如政府资料归档保护、数字化图书馆、数字化博物馆等,格式上的开源,将能保证这些数据的长期保护。如联合国教科文组织的文化遗产保护项目,整个规划设计也非常强调开源、开放。
当然,Sun作为开源方面的领导厂商,强调开源似乎也是应有之义。至于这一点对用户来说是否非常重要,51CTO.com记者倒还没有切身感受,这里只是向用户提个醒:开源,也许是个您应该思考的问题!