服务器数据恢复—raid5阵列硬盘离线导致上层LUN不可用的恢复数据案例

原创

宋国建 2024-08-06 10:15:51 ©著作权

文章标签 数据恢复服务器数据恢复存储数据恢复 raid数据恢复 文章分类 运维

©著作权归作者所有：来自51CTO博客作者宋国建的原创作品，请联系作者获取转载授权，否则将追究法律责任

服务器数据恢复环境&故障：

一台服务器上有8块SAS硬盘，其中的7块硬盘组建了一组RAID5阵列，另外1块硬盘作为热备盘使用。划分了6个LUN，服务器上部署有oracle数据库。

RAID5磁盘阵列中有2块硬盘出现故障并离线，RAID5阵列瘫痪，上层LUN无法正常使用。经过硬件工程师检测，所有硬盘（包括离线的2块盘）均无物理故障以及坏道。

服务器数据恢复过程：

1、将服务器中所有磁盘编号标记后取出，以只读方式将所有磁盘进行扇区级全盘镜像。镜像完成后将所有磁盘按照编号还原到原服务器中，后续的数据分析和数据恢复操作都基于镜像文件进行，避免对原始磁盘数据造成二次破坏。

服务器数据恢复—raid5阵列硬盘离线导致上层LUN不可用的恢复数据案例_数据恢复

2、基于镜像文件分析所有磁盘的底层数据。通过分析获取到raid相关信息（条带大小，磁盘顺序及数据走向等），依据这些信息虚拟重组原RAID5阵列。

3、仔细分析每一块硬盘中的数据，通过北亚企安自主开发的RAID校验程序做校验，将先掉线的硬盘剔除出raid。

4、服务器中的的LUN都是基于RAID的，分析LUN在RAID5阵列中的分配情况，以及LUN分配的数据块MAP。

5、将每一个LUN的数据块分布MAP提取出来。北亚企安数据恢复工程师针对这些信息编写相应的程序，解析所有LUN的数据MAP，然后根据数据MAP导出所有LUN的数据。

服务器数据恢复—raid5阵列硬盘离线导致上层LUN不可用的恢复数据案例_数据恢复_02

6、分析所有导出的LUN，发现所有LUN中均包含HP-Unix的LVM逻辑卷信息。尝试解析每个LUN中的LVM信息，发现其中一共有三套LVM：其中一个LVM中划分了一个LV，存放OA服务器端的数据；第二个LVM中也划分了一个LV，存放临时备份数据；第三个LVM由剩余4个LUN组成，划分了一个LV，存放Oracle数据库文件。北亚企安数据恢复工程师编写LVM解释程序，尝试将每个LVM中的LV都解释出来，但解释过程中程序报错。

7、分析程序报错的原因，并让开发工程师debug程序出错的位置，同时安排文件系统工程师检测所有恢复出来的LUN，检测是否会因为存储瘫痪而导致LMV逻辑卷的信息损坏。经过检测，发现存储瘫痪确实导致LVM信息损坏。尝试人工修复损坏的区域，并同步修改程序，重新解析LVM逻辑卷。

8、搭建HP-Unix环境，将解释出来的LV卷映射到HP-Unix，并尝试Mount文件系统，结果Mount文件系统出错。尝试使用“fsck –F vxfs” 命令修复vxfs文件系统，修复完成后还是不能挂载。怀疑底层vxfs文件系统的部分元数据可能被破坏。

9、分析解析出来的LV，并根据VXFS文件系统的底层结构校验此文件系统的完整性。经过分析发现底层VXFS文件系统确实有问题，原来当存储瘫痪的同时此文件系统正在执行IO操作，因此导致部分文件系统元文件损坏。手工修复这些损坏的元文件，直到VXFS文件系统能够正常解析。将修复好的LV挂载到HP-Unix小机上，尝试Mount文件系统，这回文件系统没有报错，成功挂载。

10、在HP-Unix机器上mount文件系统后，将所有用户数据均备份至指定磁盘空间。

部分文件目录截图：

服务器数据恢复—raid5阵列硬盘离线导致上层LUN不可用的恢复数据案例_数据恢复_03