常见RAID故障现象(一般通过客户描述获得)
1、阵列柜报警
一般磁盘阵列卡都有检测功能,如果磁盘出现问题会自动报警,在盘柜面板上显示黄灯或者红灯,称为磁盘掉线(Offline)。当系统数据出现问题时客户可一根据提示判断是那块磁盘出现问题。
2、无法进入系统
在服务器开启过程中会对硬件进行检查,如果阵列无法正常识别,如果系统是安装在阵列中的,则会提是无法找到系统常见提示是 Operating System not found,或是Disk Boot Failure Insert SystemAnd Press Enter
3、文件系统无法挂载
这种问题主要出现在非Windows系统中,即Linux,Unix服务器经常出现这种问题。在使用mount命令时出错。
4、分区丢失
在Windows操作系统,或使用逻辑卷管理的Linux和UNIX系统中经常出现分区信息丢失的情况。
5、部分文件丢失
在各类文件系统中都会发生部分目录变空,文件丢失
常见RAID故障原因
1、阵列卡损坏、阵列卡电池电力耗尽、槽口控制芯片损坏
这类情况的数据恢复率相当高,但也有失败的案例。比如板载的控制程序出错,发生大规模混乱的数据读写(误Rebuild等操作)是相当危险的。当发生阵列卡损坏时,随意更换新的阵列卡极易造成磁盘ID号紊乱。
2、磁盘硬件故障(包括坏道和磁盘损坏)
阵列中的磁盘如果有坏道的话,会导致磁盘掉线或阵列不稳定,这时应尽早将有坏道的硬盘换掉,如果出现多坏硬盘有坏道的话,阵列将可能瘫痪。
3、断电或意外关机
阵列是由RAID卡控制硬盘,通过某种算法将多块硬盘整合成一块硬盘提供给用户使用。在阵列运行过程中,会有大量的输入输出信息放在RAID卡的缓冲或主机的缓冲中的,如果发生突然断电和意外关机的情况,将导致碏的信息无法写回到硬盘或RAID卡的ROM中,这样极易导致阵列信息丢失、阵列瘫痪。
4、扩容失败或扩容过程中意外中断
目前很多阵列都支持不破坏数据直接扩容,但是这种操作十分危险,在扩容的过程中如果出现意外情况,比如说,突然断电,硬盘有坏道等,数据是很难恢复的。
5、操作系统的check disk
Windows,Linux,Unix等操作系统都有自己的一个硬盘检测程序,当你硬盘中的分区或文件出现问题无法正常读取的时候,操作系统就会在重启的时候去自动运行Check disk去试图修复,这时,如果是阵列的检验出现问题而导致分区或文件出错的话,运行Check disk将有可能破坏阵列中数据。
6、文件目录混乱,部分或全部文件无法访问
这种情况是由于阵列中某块硬盘的数据是不正确的,导致校验出错,其实并不是文件本身的问题。这时如果重启系统的话,操作系统会对这个分区做Check disk,注意不要让系统做Check disk。
7、RAID盘序错误
客户会对磁盘进行清理,但回放磁盘时盘序错误导致数据丢失。
8、其他自然原因
雷击,静电等
磁盘阵列常用操作系统对应分区格式
Windows 2000 Server NTFS |
Windows 2003 Server NTFS |
(Novell的中文版Suse Linux 9.0、小红帽系列、红旗Linux系列等 ) Ext2、Ext3、Reiserfs |
(SCO SVR、BSD Unix、SUN Solaris、IBM-AIX) Ufs1、Ufs2、JFS |
磁盘阵列出现问题后,客户进行的操作
当RAID出现问题后,客户会首先咨询售后服务,根据售后技术人员的提示进行操作。
1、对于掉线(Offline)硬盘进行强制上线(Online)操作(如果上线后无Rebuild提示则操作对数据影响较小,如果有提示会对数据产生一定影响)
2、更换新硬盘,对磁盘阵列进行重组(Rebuild)
(大多数客户通过这部操作可以使磁盘阵列正常使用,有部分在重组过程中出现问题,较大可能是还有至少一块有问题,这是RAID数据恢复常见问题。)
3、更换新的RAID卡
4、使用非专业工具自行恢复