虽然现在存储介质的价格直线下滑,单位存储成本已经很低。但是仍然跟不上企业数据文件增长的速度。随之而来的,能源消耗、数据备份管理等等也都成了老大难 问题。而且一些重复的文件也随着增多了。为此企业现在迫切需要一门技术,能够确保在存储设备中存储的是独一无二的文件。在这种背景下,重复数据删除技术也 就应运而生了。简单的说,重复数据删除技术就是一种减少或者删除冗余文件、字节或者数据块的技术。它的目的很简单,就是确保存储的文件不重复,从而减少数 据容量。不过在实际工作中,由于种种原因用户对这个技术还存在着一些误解。消除这些误区,对于大家正确使用重复数据删除技术很关键。
   
    误区一:后期处理重复数据删除技术的工作时机。
   
    重复数据删除技术根据其实现的方式可以分为“联机重复数据删除技术”和“后期处理重复数据删除技术”。两个技术各有各的特点。不过由于“后期处理重复数据 删除技术”这个名字起得有点其一,所以不少用户对此存在着误解。如一些人会误认为后期处理重复数据删除方式是当所有数据备份过程结束后才进行验证、删除操 作的。如果大家这么认为,那么就是大错特错了。
   
    其实后期处理重复数据删除技术通常是在虚拟的磁带介质写入备份数据后就开始进行工作了。也就是说实在等待虚拟磁带写满之后就开始。当然这中间根据需要有一 定的延迟。如存储管理员可以根据不同的情况对这个延迟进行设置。可以只延迟短短的几分钟,也可以延迟几个小时。延迟时间具体为多少,主要还是根据企业的实 际情况来选择。如有些管理员可能会将这个作业放在服务器比较空闲的时候进行,此时就会把这个延迟设置的比较长一点,如等到下班后进行等等。
   
    这里需要注意的是一般情况下,为了提高数据备份的效率,会对数据备份进行分组管理。此时等待时间是从第一组备份任务传送备份数据流开始算起。当第一盘虚拟 的备份磁带写满或者第一组备份数据写入结束后,重复数据删除处理就不存在延迟等待问题。这主要是因为当系统在进行前一组写入备份数据进行重复数据删除处理 时,被分系统可以继续往后续虚拟磁带介质中写入第二组的备份数据。简单的说,就是重复数据处理作业与备份数据的写入作业可以独立运行。从而提高数据处理的 效率。
   
    误区二:后期处理重复数据删除方式会降低整体备份的效率。
   
    如果光从技术上看,这个结论是成立的。一方面重复删除方式会占用服务器的资源。另一方面,重复删除方式存在着一定的延迟。但是这是一个比较孤立的观点。因为根据现在的重复数据删除技术,完全可以通过合理的配置来消除这种负面影响。
   
    在实际工作中,如果技术人员发现后期处理重复数据删除技术降低了数据备份的效率,那么可以通过如下几种方式来消除这个不利影响。一是可以将重复数据删除技 术分配到多个单独的服务器上来分担服务器的压力。一般情况下在对已写入的备份数据进行重复数据删除时,不同的处理引擎往往会访问同一磁盘阵列。不过现在的 技术可以使得他们访问同一磁盘阵列的不同区域。换句话说,就是可以实现高速的并发处理。这样的话,就不会和持续写入的备份数据流产生任何的冲突,从而不会 影响数据备份的效率。二是可以适当调整数据延迟的时间。如可以缩短延迟时间,或者适当延长延迟时间避开数据备份的高峰时间等等。
   
    总之,后期处理重复数据删除技术在一定程度上确实会影响到数据备份的整体效率。但是通过合理的配置,可以将这个负面影响降低到最低的程度。至少与其优势相比,这个负面影响是可以忽略不计的。
   
    误区三:降低备份数据流的读取速度不利于数据备份。
   
    从技术上说,在同等条件下采取重复删除技术,肯定会在一定程度上降低备份数据流的读取速度。但是存储管理员需要明白一点,评价一个技术是否合适,并不能够 只看一个指标,而应该从总体上去评价。简单的说,需要评价一下总体的备份时间是否有所缩短?复杂一点,需要判断备份过程是否能够满足备份窗口,或者RTO 的需求?在实际工作中,有些指标可能比备份数据流的读取速度更加的重要。如RTO需求就是如此。
   
    另外值得一提的是,如果采取重复数据删除技术的话,一般要求相关设备要有比较高的配置或者性能。因为从数据备份的任务来看,其实包括两个部分,分别为数据 的传统备份与重复数据删除作业。虽然说这两个作业可以独立运行,但是其运行所需要的时间是不同的。而只有党重复数据删除处理结束之后,整个备份作业才算真 正完成。故如果后期处理重复数据删除设备的性能比较差时,就会降低系统的重复数据删除比。故笔者在部署这个项目的时候,往往会对重复数据删除设备进行评估 与测试,看其性能上是否能够满足要求。
   
    在现实工作中有很多案例可以说明,虽然采用重复数据删除技术后会在一定程度上降低存储数据流的读取速度,但是却可缩短整个备份作业所花的时间,能够满足 RTO的需求。有句俗话说的好,只看结果不看过程。评价任何一门技术都是如此,应该从一个整体上进行评价,而不能够某几个个别的指标。否则的话,就可能会 引起用户的误判。
   
    误区四:重复数据删除技术与备份数据流写入作业无法同时运行。
   
    如果备份数据流在写入的时候,只对同一个磁盘进行操作,那么这个问题确实存在。但是在现实工作中,这是根本不存在的。因为在实际应用中,重复数据删除技术 往往是跟虚拟存储等结合使用的。也就是说,一般会将备份数据流写入到多盘虚拟磁带介质中。而实际写入磁带的数量往往会远远大于用户实际拥有的磁带驱动总 数。这说明一个什么问题呢?也就是说,当其他磁带正在进行复制或者读写等操作的时候,重复删除技术可以在其他磁带介质上进行重复数据删除的作业。换句话 说,就是重复数据删除作业与数据复制、写入等到作可以并发的运行。只是其操作的对象不同而已。两者可以互不冲突的独立运行。
   
    现在笔者比较担心的是如果数据读写作业要对某个磁带驱动器进行操作,而这个虚拟磁带库正好在进行重复数据删除作业,此时这个作业就会停下来。从而产生冲 突。凭现在的技术还很难从根本上解决这个问题,只可以曲线救国。如将虚拟磁带库的容量设置的小一点,让这个冲突产生的几率降低。
   
    另外据笔者的了解,已经有厂商在往这方面努力。如他们尝试着通过分割磁带数据区域的方法来实现并发读写。如果这个技术能够实现的话,那么当备份软件正在对 某个磁带介质进行写入操作的时候,就可以对这个介质的其他部分进行重复数据删除处理。这个原理很简单,就是将某个磁带数据区域再进行划分,以实现不同区域 的并发处理。
   
    总之,从总体上来,重复数据删除技术的负面作用是存在的。但是通过合理的配置与管理,可以将其控制在用户可以接受的范围之内。故用户需要消除以上这些误区,可以放心大胆的使用。

更多精彩内容请关注:
IBM存储化官方微博
IBM存储化官方网站