服务器数据恢复环境:

IBM DS系列存储,一个机头,连接4个扩展柜;

50块600GB硬盘组建的2组RAID;

其中一组是由27块600G硬盘组成的RAID5,存放数据是Oracle数据库文件,在存储系统上层一共分了11个卷(10个1TB,1个4TB)。


故障:

那组由27块600G硬盘组成的RAID5由于磁盘故障而崩溃,这组raid5存放的数据是Oracle数据库文件。服务器管理员联系北亚数据恢复中心进行数据恢复。


服务器数据恢复过程:

1、北亚硬件工程师对27块硬盘做了硬件检测,发现2块硬盘出现坏道,SMART的错误冗余级别超过阀值。服务器数据恢复工程师对25块完好的磁盘做全盘镜像,对2块故障磁盘进行硬件修复并做镜像备份。

【北亚服务器数据恢复】IBM DS系列存储硬盘故障导致RAID5(存放Oracle数据库)崩溃的数据恢复_数据恢复

【北亚服务器数据恢复】IBM DS系列存储硬盘故障导致RAID5(存放Oracle数据库)崩溃的数据恢复_数据恢复_02


2、故障分析:对这台IBM存储上收集到的日志信息进行分析,搞清楚2块故障硬盘的掉线先后顺序,从而找到数据最新的那块硬盘,用这块硬盘进行接下来的数据恢复。


3、经过研究,北亚数据恢复工程师确定了套解决方案:

方案一:通过IBM DS存储管理软件进行强制上线,在强制上线之前把存储的所有硬盘都进行备份,之后进行强制上线。

方案二:通过对硬盘底层数据分析,进行RAID重组,从底层提取数据,重新加载oracle数据库,调试上层应用。


4、实施第一种解决方案,先在模拟器上进行测试,之后在存储上进行上线操作。

通过IBM DS存储管理软件进行强制上线,强制上线之后raid处于降级状态,这个时候设置好热备盘,让热备盘上线进行数据同步,同步完之后上层的卷直接可以用了,所有数据也都可见了,上层应用也能正常使用。

第一种解决方案节省了很多时间,上层应用也不需要在调试,可以直接启动。



【北亚服务器数据恢复】IBM DS系列存储硬盘故障导致RAID5(存放Oracle数据库)崩溃的数据恢复_数据_03

【北亚服务器数据恢复】IBM DS系列存储硬盘故障导致RAID5(存放Oracle数据库)崩溃的数据恢复_数据_04

【北亚服务器数据恢复】IBM DS系列存储硬盘故障导致RAID5(存放Oracle数据库)崩溃的数据恢复_服务器_05

【北亚服务器数据恢复】IBM DS系列存储硬盘故障导致RAID5(存放Oracle数据库)崩溃的数据恢复_数据_06

数据恢复结果:

由于上层的卷直接可用,数据也都可见了,经过用户亲自验证,数据完整可用。出于安全考虑,还是将卷里的文件都拷贝出来移交给用户。整个恢复过程一共历时5天。

【北亚服务器数据恢复】IBM DS系列存储硬盘故障导致RAID5(存放Oracle数据库)崩溃的数据恢复_数据恢复_07