题记:好久没写blog了,转了售前以后,很多东西要学,比较累,今天抽空写一点,再不写下次见小废非骂死我不可。
 
重复数据删除技术是今年数据保护领域里的热点技术,我刚好看到了一篇英文的"Top 10 Questions About Data De-duplication" 网址是:http://www.source.be/products/product.aspx?pid=30
 
作为入门文章,写得不错,我现在简单总结一下,并加入一些我自己的看法,与大家分享。
 
1,到底什么是“重复数据删除(Deduplication)”技术
 
简单地说,就是在通过网络传输或存储数据时,不传送或存储多份相同数据,以减少对网络带宽和存储空间的占用。实际上以前的SIS(单实例存储)就是一种Dedu技术,但是它去重的单位是文件。现在流行的Deduplication技术通过是以数据块为单位的,去重效果会更好,实现起来复杂程度也更高一些。这些技术用在数据备份领域效果最好,因为多次全备份产生的数据中包含大量的重复数据。增量备份可以在一定程度上减少重复备份,但是它的单位是文件,颗粒度不好,而且长期采用增量备份也不实际,因为还原时会非常复杂。如果通过合成备份来解决这一问题,合成作业又会产生额外的开销。
 
2,去重技术如何应用于备份或数据复制
 
去重技术主要应用于在低带宽的情况下实施数据备份,复制。例如分支机构的数据保护和窄带容灾。原理基本相同,在传送一个文件之前,会先计算该文件的指纹,如果与之前传送过的文件相同,则只传送文件属性和指针,不传送实际的数据。如果文件指纹与之前传送过的文件不同,则将文件拆分为更小的数据段,对每个段做指纹,重复的段只传送指针。由此可见,实际传送的数据量决定于备份或复制间隔内所产生的数据变化量。
 
3,去重适用于什么类型的数据,不适用于什么类型的数据?
 
去重适用于任何类型的数据,比如办公文档,数据库,多媒体文件,虚拟机等。虽然有些数据由于其自身的特点决定,第一次备份时去重效果不是特别明显,但是在后续的备份中,去重技术的优势就显现出来了。备份的次数越多,间隔越短,重复数据删除比就越高。
 
4,怎么才能知道去重技术对我的数据是否有效?
 
去重效果主要决定于以下几个方面:A,有多少数据改变,数据变化量越少,去重效果越明显;B,数据是否可以被有效压缩,压缩技术通常与去重技术一起使用,压缩率高的数据,即使去重率不高,通过压缩,也可以明显在节省带宽和存储;C,你所采用的备份方式(全备,差备,增备),对全备最明显,对增备也同样有效,例如,一个50M的文件,只有一个128K的数据块发生了变化,增量备份要备整个50M文件,去重技术则只备份变化的数据块;D,数据要保留多久,数据保留周期越长,去重技术的优势越突出,因为它可以极大地节省你的存储空间。
 
5,去重技术到底有什么益处?
 
前面介绍过了,可以节省你的存储空间和网络宽带。这样你就可以通过高速磁盘存储保留更多的备份数据了,将更多的备份数据存储于有限的磁盘空间,减少对磁带的使用,节省成本,也提高了恢复数据时的效率。节省带宽这一优势可用于分支机构的数据保护和实现低成本的窄带数据容灾。
 
6,什么是定长块去重,什么是可变长块去重?
 
数据的变化是没有规律的,如果采用定长的数据块,则不管数据变化量是多少,也不管发生数据变化的比特位在数据块的什么位置,都要备份整个数据块。这样分块大时,传输的数据量较大,数据块小时,管理信息会有较大的增加。采用可变长块可以有效解决上述问题,去重的效果会比定长块方案要好,但是,变长块也同样增加了数据管理的复杂度。
 
7,采用去重技术来存储和备份数据,安全性如何?会不会出现不能恢复的情况?
 
去重技术是成熟技术,非常安全,十个相同文件,采用去重技术存储,数据只会保留一份,但是这十个文件的属性会分别保存,并有指针指向与它们对应的数据块。去重技术采用文件或数据块的指纹(MD5,SHA或CRC等)来判断重复性,可能会产生“碰撞”,也就是不同的文件或数据块计算出相同的指纹,从而导致数据丢失。但是这种可能性非常小,而且成熟产品会采用多种指纹技术来进一步降低“碰撞”的可能。
 
8,什么是前去重,什么是后去重?
 
前去重是指我们用备份服务器备份某一台计算机上的数据时,去重的操作发生在被保护的计算机上,这样的话,从该计算机到备份服务器之间也不会有重复数据出现,节省这一段网络带宽,但是会增加被保护计算机的负担。后去重则是数据传送到备份服务器之后再删除掉重复数据,可以存储在磁盘上,也可以进一步通过网络传递。这样方案不会增加被保护主机的负担。通常对于大一点儿的站点,我们会采用这种方案,把去重的任务交由该站点内的专用服务器来完成。
 
9,去重技术支持备份到磁带吗?
 
磁带不支持随机访问,所以在磁带上实现去重技术难度较大,且效率不高,磁带相对于磁盘来说,成本也较低。所以目前的去重解决方案主要是应用于磁盘存储。如果用备份软件将磁盘上的去重数据复制到磁带上时,被去重的数据往往被还原为非去重状态。这样也可以在一定程度上降低去重为数据的可用性所带来的风险(重复数据只保存一份,这就意味着,这一份数据受损,将导致一组文件无法正常使用)。
 
10,实现去重方案要花多少钱?
 
目前提供这一方案的厂家很多,相关解决方案的价格会有一些差别。总的来讲,在这一部分的投入,很快会通过对网络带宽和存储空间的节省而得到回报。所以目前这一技术是主流的数据保护技术,比较受用户欢迎。特别是那些数据量较大的用户。
 
[完]