一、故障描述:基于ESX SERVER的常见数据灾难

故障表现:

1、因光纤存储设备连接至非ESX环境,共享未互斥,对存储改写(重装系统,WINDOWS初始化,格式化等),导致存储结构损坏。

2、卷升级、变更时分区表或VMFS卷结构异常。

3、VMFS存储中VMDK误删除。

4、VMFS格式化。                                                                  

二、解决方案

◆检测                           

1、检测是否存在硬件故障,如硬件故障,转硬件处理

2、以只读方式检测故障表现是否与用户描述相同

◆恢复

1、备份:以只读方式对故障存储做完整镜像(参考附录)

2、在备份中进行数据分析及恢复操作:按分区表结构、VMFS结构(节点区、索引区、目录及数据区)的顺序依次分析数据损坏情况,并针对性地做重组恢复。

3、通常,恢复后的数据会暂存在另一个存储体上

◆验收

对恢复好的数据进行验证,确认其正确性。如确认,交费–>移交原介质及已恢复数据 –>出具发票(收据)及报告。

如无法认可数据恢复结果,交回原介质,不收服务费,可免费出具报告。

三、数据恢复的可能性

★针对因非ESX服务器对VMFS改写的情况:

这类改写实际上要考虑对VMFS的破坏情况,通常如果仅仅是WINDOWS初始化、划分分区或文件系统格式化(未写入数据文件),数据破坏不严重,可恢复。

如果破坏严重,典型的,整个VMFS的前100MB完全覆盖,数据恢复的难度将非常之大----这时候,只能通过文件系统内部关系进行恢复,如果是有结构的数据,如ORACLE或SQL SERVER数据库,可以恢复,但像RAR、gz及多媒体文件将很难恢复。 

★ 针对卷升级、变更时分区表或VMFS卷结构异常:

通常此类突发性故障破坏不会很严重,通常可完整恢复,但真正严格的讲是否可恢复,要取决于节点区、索引区、目录及数据区是否破坏(通常VMFS的前100M很关键)。 

★ 针对VMDK误删除

VMFS删除VMDK后,如果没有新数据写入,数据依然存储于VMFS中,但存储本身却不会再保留指向数据区的索引信息。这时候,需要对原VMDK文件内部结构进行分析,才可以确定数据恢复的算法及可靠性。如同VMFS破坏严重的情况,如果VMDK内部存储的是像数据库文件一样的规则文件,可恢复性将很高,否则,就需要仔细发现和整理数据恢复的算法了,有些时候,数据可能无法在有效时间内恢复成功。

四、时间

1TB以下的VMFS(不是要恢复的数据容量),通常2个工作日内可完成;1TB以上的随存储容量的增加,恢复周期通常也会增加。

[小贴士]

★ 针对软件故障,在数据丢失后,应尽可能减少对存储的操作,有时候,即使是开着机,什么都不做,也可能导致灾难进一步加剧。条件允许的话,在数据损坏后,最好对磁盘或存储卷做完整备份

★ 针对硬件故障,在设备无法正常工作后,应尽可能少的加电,以避免设备的进一步损坏。

七、故障原因

典型的光纤存储分配错误是遇到最多的ESX上的数据故障,因VMFS的CLUSTER是基于几台ESX SERVER之间的约定,故而当存储被非ESX系统接管时,便会以独占的模式进行管理,这会导致存储结构的损坏。

                

八、如何避免      

做好备份方案,尽可能避免单存储备份,如数据非常重要,可考虑异地备份。