最近处理两起IP SAN(也叫iSCSI)磁盘阵列故障,设备型号都是HP MSA2012i(是HP MSA2000的其中一种型号)。HP MSA2012i主柜和扩展柜都有12个盘位,硬盘都是1TB SAS接口的企业级硬盘。在HP MSA2012i柜子硬盘槽位接口是FC(光纤),所以SAS接口的硬盘通过HP专用硬盘托架,转换成FC接口后,就可以插入阵列柜使用。
HP MSA2012i 正面背面图
MSA 2012i硬盘托架,可以将SAS或者SATA接口的硬盘转换成FC接口
其中一个数据恢复案例信息及故障如下:
硬件环境:整个IP SAN由两个盘柜组成,一个主柜外加一个扩展柜。主柜插满12个1TB硬盘,扩展柜插5个1TB硬盘,总共17块1TB硬盘。
Raid配置信息:按照磁盘顺序用前面16块盘配置成1组Raid5,最后一块盘最为热备。
逻辑卷信息:在配好的Raid5中,划分出12个逻辑卷(LUN),通过以太网交换机,分配给多台服务器使用。
故障现象:在运行过程中,发现3号盘亮红灯,通过控制端口访问后台管理程序,发现热备盘已经替换3号盘工作,因为热备盘替换3号盘以后,阵列卡要对热备盘进行Rebuild操作,只有Rebuild完成后,数据才有可能完全正常。Rebuild过程花费了1天多的时间,在后台管理中看到Rebuild已经完成,而且看盘柜硬盘指示灯也不像Rebuild的时候狂闪。
原以为Rebuild完成以后,数据都正常了,没想到在12个逻辑卷中,有些卷能打开,有些卷打开不了,提示参数错误,需要运行chkdsk进行文件系统检查(所有逻辑卷格式化成NTFS文件系统),有些卷虽然能打开,但是有些目录打不开,有些文件拷贝不了,总是提示MFT表项错误,需要chkdsk以后才能进行。用户尝试chkdsk其中一个文件系统,也没有解决报错的问题,由于数据特别重要,不敢轻易做操作,所以送到达思数据恢复中心进行数据恢复。
处理方法:按照Raid数据恢复方法,我们先想办法识别出单独的17块物理硬盘,然后通过D-Recovery For Raid进行分析和组合,最后展开数据恢复就可以。在识别17块物理硬盘的方法有两种:第一种是把所有的硬盘卸下HP硬盘托架,换上别的傻柜子(扩展柜,不带控制器)如DELL MD1000的,MD1000可以接15块硬盘,其余两块硬盘直接接到PC Server主板上的SAS接口上。第二种方法是后来试验出来的:直接从HP MSA2012i扩展柜的SAS接口通过SAS线连接到主机SAS卡,主柜和扩展柜正常连接,在操作系统上就能识别出17个物理硬盘。然后用D-Recovery For Raid进行分析组合,如下图:
D-Recovery For Raid数据恢复界面
恢复结果:最后100%恢复出12个逻辑卷的数据。
声明:作者达思数据恢复技术专家覃廷良,本文首发http://www.bnuol.com http://www.dstfix.cn ,在donews.com,51cto,techweb,新浪,百度等数据恢复技术博客上转发.欢迎转发,转发请保留作者及出处。
本案例总结:按正常原理来说,Raid5更换其中一块硬盘,进行Rebuild完成以后,数据都是正常的,但是本案例却出现了异常的情况,原因有两种可能:
1、Rebuild没有真的顺利完成,只是在后台管理中看到已经完成的状态。2、Rebuild运算即XOR(异或)出现异常,使得XOR结果出现错误导致。
最后经过缺盘组合出正确的数据。
在划分逻辑卷的情况下,Raid的组合参数中,每个卷(LUN)的起始位置并不一样。如果是一个Raid5,在操作系统中划分成几个分区,无论是MBR格式的分区还是GPT格式的分区或者是动态磁盘分区,如果这些分区信息还正常,通过恢复工具,就能使用相同的组合参数,特别是Raid5的组合起始位置,就能恢复出所有分区数据。
本案例是在一个Raid5中划分出多个LUN(逻辑卷),每个LUN有自己独立的分区信息,所以要精确定位到每个LUN的起始位置,才能正常读取LUN中的分区及数据。