那么Raid为什么会出现故障?
Raid安全性的基础是成员盘的安全可靠,由于机械硬盘存储密度的大幅提升以及厂商对成本的压缩控制,现在硬盘的质量已大不如前,很多硬盘仅仅使用几个月甚至更短时间即出现物理故障,当过多的硬盘出现故障,Raid的安全性就成了空谈。
为提高性能,阵列上常常采用性能更高的服务器硬盘,这种硬盘可提供10000-15000rpm的转速,性能极佳。
但它们在出现磁头损坏后,如不及时发现并断电,磁头很可能长时间与碟片接触,将碟片严重划伤,致使存储介质的磁粉脱落,造成无法挽回的损失。
故障原因故障表现
1逻辑故障1. 阵列中部分数据丢失或数据无法正常打开(文件系统损坏或文件结构破坏)
2. 阵列中某种格式(Office文档、压缩文件)无法正常打开(病毒破坏特定文件)
3. 在系统下,阵列未初始化(MBR损坏或分区表故障)
4. 阵列卷无法打开或提示格式化(文件系统损坏)
5. 误将阵列中一块多多块硬盘进行格式化操作
6. Raid重建(将Raid-1重建为Raid-0或反操作,将Raid-5重建为Raid-0或反操作等)
2成员盘物理故障1. 多块成员盘指示灯报警
2. Raid管理器中多块硬盘离线或丢失
3. 阵列从系统下丢失并无法访问
4. 阵列呈现未初始化状态
5. 阵列重启后无法正常启动
6. 阵列同步过程中又有其它成员盘离线
3阵列卡损坏1. 阵列信息丢失,所有硬盘均呈现离线状态
2. 阵列在系统下无法识别
3. 无法进入Raid管理界面或查看Raid信息时死机
4不恰当的阵列扩容1. 多块成员盘指示灯报警
2. 阵列呈现未初始化状态,无法正常访问
3. 扩容后容量不正常,或发生卷丢失
4. 扩容后部分或全部文件丢失
5盘序标记错误1. 阵列无法正常启动
2. 在Raid管理中,阵列呈现未初始化状态
三、RAID发生故障后如何避免数据丢失?
用户在阵列出现故障后,通常首先向供应商求助,但供应商仅能保证阵列重新正常运行,并不对用户数据安全负 责。
所以供应商通常采取的措施是将离线硬盘剔除,替换完好硬盘让阵列自行做同步操作,正常情况下,这种做法是安全的,但如果成员盘先后离线时间间隔较长, 提前离线的硬盘可能在重启后恢复正常并参与同步,它并未存储其离线后的“新鲜”数据,当其参与同步操作时,就把整个阵列数据“污染”了,导致数据在同步完 成后丢失或无法正常打开,最明显的表现为:数据越新越大,损坏的概率越高,数据越旧越小,损坏概率越低。
数据恢复厂 商与服务器供应商所提供的解决方案是不同的,数据恢复提倡先将数据完整恢复,再对阵列采取修复措施,甚至可以在替换故障硬盘后直接对阵列进行初始化,再将 已经完整恢复的数据拷贝回去。
对于大容量阵列来说,磁盘同步是个工作量巨大的操作,所有成员盘可能在连续几天的时间里不间断进行读写操作,一些存在质量问 题的硬盘可能在这一过程中损坏。
在我们的案例中,经常出现同步过程未结束,原来正常的硬盘又离线的情况,而这时再进行数据恢复,难度很高。