服务器数据恢复环境:

DELL PowerEdge服务器;

6块SCSI硬盘组成RAID5;

LINUX REDHAT操作系统;  

EXT3文件系统。


【服务器数据恢复】DELL PowerEdge服务器RAID5硬盘掉线,人工强制上线后服务器崩溃的数据恢复案例_数据


服务器故障情况:

服务器运行过程中有一块硬盘离线,但服务器管理员未及时发现,直到另一块硬盘掉线服务器崩溃。管理员联系DELL工程师寻求帮助,DELL工程师建议将其中一块硬盘强制上线,并明确表示本操作具有一定的风险。管理员将其中一块掉线盘强制上线后,发现操作系统启动异常。于是联系我们数据恢复中心进行数据恢复。


服务器故障分析:

此类服务器故障在我们数据恢复中心接到的案例中经常见到。由于RAID5仅支持一块硬盘掉线的冗余保护。如果有两块硬盘离线,RAID5无法通过运算提供完整数据块,阵列便会崩溃。可能是为了稳定起见,RAID控制器还有一个特点:只要有硬盘下线,备份盘不会自动上线。如果不通过人为操作,RAID5会进入瘫痪状态。通常情况下, 控制器的高敏感性决定多数掉线硬盘不会有严重的物理故障,很多情况下掉线硬盘是完好无损的。虽然这种情况让数据恢复的成功可能性很高,但是强制上线仍然具有较大风险。因为上线错误会导致控制器自动做出一些不可逆的操作。这种情况下进入操作系统,文件系统的不一致会触发自动修复,从而导致全部硬盘的数据不一致。本案例就是这种情况。


【服务器数据恢复】DELL PowerEdge服务器RAID5硬盘掉线,人工强制上线后服务器崩溃的数据恢复案例_数据_02


服务器数据恢复过程:

1、给所有硬盘做镜像,镜像过程中发现多块没有掉线的硬盘也存在坏道,只是RAID还没有识别出来,暂时没有下线。

2、在镜像中分析RAID获取RAID相关信息,根据获取到的RAID信息构建RAID环境。

3、验证RAID结构,修正部分破坏的结构,将数据导出到另一存储。

4、用完好的硬盘在DELL PowerEdge服务器搭建的RAID5。  

5、将恢复出来的数据迁移至新搭建的RAID上。

6、经过管理员亲自验证,恢复出来的数据没有发现问题。


【服务器数据恢复】DELL PowerEdge服务器RAID5硬盘掉线,人工强制上线后服务器崩溃的数据恢复案例_服务器_03