【北亚服务器数据恢复】EMC存储Raid5中2块硬盘损坏,热备盘未全部激活导致raid崩溃的数据恢复案例_服务器


服务器数据恢复环境:

EMC存储;

stat硬盘组成raid5,两块热备盘。


故障:

2块硬盘出现故障,只有一块热备盘被激活,raid崩溃。服务器管理员联系北亚数据恢复中心进行数据恢复。


服务器故障检测:

北亚数据恢复工程师前往现场对服务器设备进行了简单排查,确认raid5瘫痪,上层lun无法正常使用,2块热备盘中的1块已经启动。数据恢复工程师对掉线硬盘进行物理故障排查,两块硬盘均无物理故障。


服务器数据恢复过程:

1、raid5数据备份。

数据恢复工程师将服务器上的所有数据进行镜像备份,将所有硬盘连接到数据恢复中心的数据恢复专用存储池中,对所有硬盘进行了扇区级镜像备份。

2、分析该服务器raid组结构。

服务器数据恢复通常都是基于复原raid阵列来进行数据恢复的。数据恢复工程师对raid阵列基础信息进行分析,基于获取到的raid信息重组raid阵列。

经过数据恢复工程师对每块硬盘的分析发现:原服务器内的两块热备盘内全部没有数据,也就是说即使被激活的热备盘也同样没有同步到任何数据,两块热备盘没有起到任何作用。数据恢复工程师只能通过原raid5中的其他硬盘的数据来重组raid5。

3、分析RAID组掉线盘信息。

基于第2步中的数据恢复思路,北亚服务器数据恢复工程师使用自主研发的数据恢复工具解析出这组raid5的基础信息,并虚拟重组出了raid5磁盘阵列。在正常服务器数据恢复流程下,数据恢复工程师会将有多块硬盘掉线的阵列中最早掉线的硬盘从阵列中剔除,比对每块硬盘在同一个条带上的数据是否一致,将明显不同的硬盘剔除后进行条带校验,直至找到数据恢复的最佳状态为止。

4、分析RAID组中的LUN信息。

成功重组出raid5阵列后,北亚数据恢复工程师开始对lun信息进行分析,然后使用北亚开发的raid数据恢复程序对lun数据的map进行解析和导出。

5、ZFS文件系统解析并修复。

使用北亚研发数据恢复工具对上层的文件系统进行解析和恢复。本案例故障服务器上层采用zfs文件系统,对文件系统解析时发现部分文件系统元文件报错,于是北亚工程师对现有的数据恢复工具进行debug调试让程序适应本次数据恢复的实际情况。

【北亚服务器数据恢复】EMC存储Raid5中2块硬盘损坏,热备盘未全部激活导致raid崩溃的数据恢复案例_服务器_02

经过调试发现zfs文件系统解析报错的原因是:故障服务器突然瘫痪导致文件系统中某些元文件被损坏。北亚数据恢复工程师针对损坏的元文件进行了人工修复,修复完成后zfs文件系统可以被正常解析。

6、导出raid5阵列内所有数据。

ZFS文件系统解析完成后,北亚数据恢复工程师最终将raid阵列内的数据完整导出。由服务器管理员配合搭建数据验证环境,对恢复出来的所有数据进行验证。经过验证,原服务器内的所有数据均恢复正常。