基于所采用的不同技术,数据是否重复可以有不同的检测方式。举 例来讲,文件级的重复数据删除(亦称为实例存储,SIS)可以识别完全一样的文件,将其仅保存一次,并将后续完全一致的拷贝替代为指向该文件的一个指针。 基于文件级别的重复数据删除技术有Novell公司的GroupWise和Microsoft公司的Exchange邮件系统(虽然在Exchange 2010中并不支持SIS)。EMC公司同样在其存储阵列上提供文件级别的重复数据删除,包括Clariion、Celerra和其最新的VNX系列。
文件级别的重复数据删除技术的劣势在于精细度不够,并且不能提供次文件级别的重复数据删除功能。这意味着一个文件中即便有很小的一处改动也会被认为是一 个全新的文件而另外储存。文件级别的重复数据删除一般用于邮件环境,这其中同样的附件会被同时发送给诸多参与者,或者是非结构化的数据存储环境中,这种环 境下变化率很低。不过,文件级别的重复数据删除并不适用于结构化数据环境中,这种环境下诸如数据库等会持续变化。
为了解决文件级别的重 复数据删除技术缺乏精细度的特点,各厂商将数据分割成更小的“数据块”,以固定或变化的长度。只存储唯一性的数据段并将识别出重复的其它数据段的用指针方 式代替,这样就能够实现更高的数据删除率。CommVault系统公司、FalconStor软件公司和NetApp公司都是采用块级别重复数据删除技术 的厂商;而相对的,EMC的Data Domain、Avamar和Sepaton公司的产品都是基于长度变化的数据段的。这和数据块级别重复数据删除技术的不同之处在于,数据块的方式下,一 个数据块的变化会引起整个数据集中所有数据块都被作为新的数据块存储,因为整个数据集变了。在长度变化的数据段的重复数据删除技术下这种情况会好些,不过 这种技术更为复杂并消耗很多资源。次文件重复数据删除技术(块级别或长度变化方式)在备份环境中经常使用,这种环境下多个文件备份版本通常仅包含很小的改 动。