意外断电导致raid硬件损坏或者riad管理信息丢失等raid模块损坏而导致数据丢失的情况非常普遍。正常情况下,磁盘阵列一旦创建完成就不会再对管理模块中的信息进行更改,但是raid管理模块中的信息属于可修改信息,一次或多次的意外断电可能会导致这部分信息被篡改或丢失。断电次数过多甚至会导致raid卡上的元器损坏。
服务器存储数据恢复环境:
某品牌EVA某型号存储,其中有一组由6块SAS硬盘组建的raid5阵列。上层安装WINDOWS SERVER操作系统,作为公司内部文件服务器存储使用。
服务器存储故障:
机房供电问题导致该服务器存储数次异常断电。一次断电重启后,raid阵列提示“无法找到存储设备”,管理员尝试进入raid管理模块查看,但是一进入到raid管理模块就死机,多次尝试后故障依旧存在。
服务器存储数据恢复过程:
1、将故障存储中的所有硬盘编号后取出,硬件工程师检测后没有发现有硬盘存在物理故障,所有硬盘读取正常。对所有硬盘以只读方式进行扇区级全盘镜像。镜像完成后后续的数据分析和数据恢复操作都基于镜像文件进行,避免对原始磁盘数据造成二次破坏。
2、基于镜像文件对所有磁盘底层数据进行分析,获取到该raid5阵列中6块硬盘的数据块大小,条带信息、盘序、校验方式等信息,利用这些信息在虚拟环境中重组raid。
3、对重组RAID中的数据进行逻辑校验,确保重组RAID所应用的各参数正确后,验证用户最为关注的数据。
4、经过验证,用户方确认数据恢复结果已达到预期,认可数据恢复结果。将恢复出来的数据迁移至用户方准备好的存储中。
Tips:
1、尽量保证机房供电稳定,减少供电异常对服务器和存储的影响。
2、为重要的服务器及存储配置不间断电源。
3、定期对服务年限较长的服务器/存储做安全状况检查,并对其整体运行状态进行评估以决定是否进行硬件及系统的全面升级。
4、提前制定突发数据灾难的紧急处理方案。