前面写过一篇介绍PureDisk的日志,今天重点说一说PureDisk是如何在客户端实现去重的。
 
1,首先,Agent根据数据选择扫描本地文件系统,将数据选择列表中新增的,有改变的和被删除的文件加入名为“path object list”的清单,这些文件都是待处理对象。
 
2,依次处理path object list中的每个文件,将metadatafile content分离。
 
3,创建file content的fingerprint(使用MD5算法,创建128位的FP),与storage pool中的metadata server联系,如果相同文件已经存在,将文件的metadata发送给metadata server,文件处理完毕。
 
4,如果文件是唯一的,则继续处理,将文件的内容分割为segment(缺省分段大小为128K),计算每个segment的FP。
 
5,metadata发送到metadata server,基于Agent存储于相应的metadata engine。然后逐段比对每个segment的FP,基于FP选择content router,如果segment是唯一的,则传送segment到content router。
 
6,所有的唯一段都传送到content router之后,在相应的content router中创建代表整个文件的data object
 
由此可见,因为PureDisk通过Agent在客户机上实现去重,可以在最大程度上减少备份数据时对网络带宽的占用