存储数据恢复环境:

设备为IBM FlashSystem系列存储,架构为IBM power系列服务器+AIX+Sybase+IBM FlashSystem系列存储阵列柜,需要恢复的数据主要存放在阵列柜上,共12块600G容量的SAS机械硬盘(其中一块为热备盘)。


存储故障:

存储中一块磁盘出现故障,服务器管理员更换磁盘,同步数据,数据同步到40%左右时,另一个磁盘也出现了问题,逻辑盘无法挂载在小型机上,业务中断。存储的管理界面显示两块硬盘故障脱机,其中10号槽位故障硬盘为热备盘,3号槽位故障硬盘情况如下图:

【存储数据恢复】IBM FlashSystem存储的数据恢复案例_数据恢复

【存储数据恢复】IBM FlashSystem存储的数据恢复案例_数据恢复_02

阵列柜中创建了2组Mdisk,加到一个pool中,主要数据pool无法加载,一共有三个通用卷无法挂载,具体情况如下图:

【存储数据恢复】IBM FlashSystem存储的数据恢复案例_数据_03

存储数据恢复过程:

A、数据备份:使用软件为10块无故障磁盘做镜像, 用PC3000给3号槽位的故障硬盘做镜像(可能有较多坏道)。所有的数据恢复操作都在镜像文件上进行, 避免对原始数据造成二次破坏。

B、数据恢复方案一:对存储进行强制上线操作。分析存储中故障硬盘的离线顺序,修复后离线的故障硬盘。将修复好的硬盘插回存储,进行强制上线操作。

C、数据恢复方案二:解析存储结构。

一、分析Mdisk,重组raid。

1、根据服务器管理员提供的配置信息,将硬盘按照Mdisk组分类。

2、对每组Mdisk中的硬盘进行分析,获取重组raid所必需的raid相关信息。

3、利用获取到的raid相关信息对Mdisk进行虚拟重组。  

二、分析pool。

1、对所有Mdisk进行分析,获取pool的相关信息。

2、解析pool在Mdisk上的分布情况。

三、分析LUN结构。

1、分析pool中的条带大小。

2、解析LUN位图,分析各LUN在pool中的分布情况。

3、北亚数据恢复工程师编写程序提取LUN。

D、掉盘分析

提取存储的日志,通过分析日志得到各故障硬盘的离线顺序。

【存储数据恢复】IBM FlashSystem存储的数据恢复案例_数据_04

验证数据 :

对生成出的数据进行随机抽样检测,数据没有问题。


数据移交:

服务器管理员提供存储设备,在存储上创建与原先环境一样大小和相同数量的LUN,将提取出的LUN数据复制到存储上新创建的LUN中,交付给用户。数据移交后,服务管理员重新配置存储环境,验证数据正常。