一、 故障概述

业务系统中断,部分虚拟机无法访问。通过VMware vsphere 控制台登录检查发现,虚拟机灰色状态,部分共享存储不可访问。

一起同城存储双活典型故障事件的处理_java


二、 故障处理

1. 硬件环境说明

硬件环境是做的同城存储双活,本地是一台EMC Vplex存储网关纳管2台EMC存储,前端是VMware ESXI主机集群,异地也是一台EMC Vplex 纳管2台EMC存储,前端是VMware ESXI主机集群,具体硬件架构如下图:

一起同城存储双活典型故障事件的处理_java_02

2. 故障分析处理

第一步:首先检查EMC VPlex存储网关和EMC存储,设备状态运行正常,排除EMC VPlex存储网关和EMC存储硬件故障。

第二步:检查SAN光纤交换机,第一眼看SAN交换机端口都是online状态,没有在意继续排查。

第三步:由于是EMC双活环境,对其中一台ESXi主机进行重启,重新识别共享存储,发现ESXI主机共享存储恢复正常访问,先恢复业务要紧呀。

第四步:通过逐台对ESXi主机进行重启,业务全部恢复正常。

第五步:收集EMC Vplex日志、VMware ESXI主机日志,配合厂商进一步分析。

3. 故障原因定位

第一步:通过VMware ESXI主机日志分析,存在如下报错信息:

vmkernel日志中显示 All Paths Down (APD) error ,时间在 00:06 UTC time,输出如下:

一起同城存储双活典型故障事件的处理_java_03

ESXI主机不能访问存储lun的原因是因为发生了All Path Down,会使得ESXI主机短暂丢失对datastore的访问,这段时间内IO error出现都是可能的。

现在初步判断:ESXI主机部分无法访问共享存储是因为发生了All Path Down导致,接下来故障原因聚焦在ESXI主机到共享存储多路径上。

第二步:重新检查SAN交换机端口状态,对2个站点光纤交换机SFP长波级联模块以及光纤链路进行光信号强度进行测试,发现生产中心到灾备中心直连光纤链路光衰较大,RX分别是-16dBm、-17dBm,偏离EMC存储双活环境推荐范围值。

EMC官方建议:EMC建议RX的收光功率最好大于-7dBm。日常实践证明,如果8G链路的收光功率小于-10dBm,交换机基本无法正常接收光信号。

一起同城存储双活典型故障事件的处理_java_04

一起同城存储双活典型故障事件的处理_java_05

第三步:进一步确认由于生产中心到灾备中心直连光纤链路光衰较大,导致EMC VPlex Metro Mirror 延时异常,生产中心部分共享存储发生All Path Down,从而导致虚拟机不可访问。 中断EMC VPlex Metro Mirror, 协调运营商对生产中心到灾备中心直连光纤链路信号衰减进行修复。

第四步:运营商对生产中心到灾备中心直连光纤链路信号提高大于-7dBm后 ,重新进行EMC VPlex Metro Mirror存储数据同步,VMware 虚拟化平台主机运行恢复正常。


三、 技术分析

1、 SFP模块光功率信号强度分析

FC(fibre channel)交换机使用光信号传输数据,交换机的SFP/GBIC模块负责接受/发送光信号,并完成光/信号的相互转换。如果SFP模块接受/发送的光信号强度不够,势必会影响到上层FC链路的稳定性。一个优秀的SFP/GBIC模块是FC链路稳定的最基本保障。

衡量方法:

业界常见衡量光信号强度方法有两种:Microwatts(mW)和dBm,不同平台交换机采用方式可能会不一样,部分会选择mW,部分会选择dBm。SFP光模块信号强度通常包含两个指标,分别是Tx Power和Rx Power。Tx Power代表SFP模块发送方向的光信号强度;Rx Power代表SFP模块接受方向的光信号强度。

mW和dBm之间联系:

mW通过功率方式描述光信号强度,dBm是decibel of the measured power to one millwats的简称,通过分贝方式描述光信号功率比。Cisco交换机使用dBm方式,Brocade交换机使用mW方式。两者可以通过以下公式互相转换:

dBm -> mW:

一起同城存储双活典型故障事件的处理_java_06

mW -> dBm:一起同城存储双活典型故障事件的处理_java_07EMC推荐光信号强度范围:

一起同城存储双活典型故障事件的处理_java_08一起同城存储双活典型故障事件的处理_java_09

常见速率最大可接受光衰减范围:

• 8Gbps最大可接受信号衰减值:-13.8dBm

• 4Gbps最大可接受信号衰减值:-15.4dBm

• 2Gbps最大可接受信号衰减值:-18.2dBm

EMC的推荐范围比Cisco/Brocade交换机自带范围要小,最小信号强度相对高一些,最强信号强度相对低一些。EMC建议RX的收光功率最好大于-7dBm。日常实践证明,如果8G链路的收光功率小于-10dBm,交换机基本无法正常接收光信号。

如下图说明:

一起同城存储双活典型故障事件的处理_java_10

2、 VMware ESXI主机共享存储卷路径设置策略

由于生产环境是EMC VPlex 存储双活环境,对于VMware存储卷路径设置策略就比较有讲究,由于主要业务系统虚拟机都在生产环境站点,EMC官方推荐路径策略采用 固定 模式。

一起同城存储双活典型故障事件的处理_java_11


四、 故障总结

通过本次同城存储双活故障处理,总结一下经验:

1、 生产端与灾备端的SAN光纤交换机级联SPF模块及链路RX的收光功率最好大于-7dBm。

2、 EMC VPlex 存储双活环境VMware存储卷路径设置推荐采用固定模式。

3、 EMC VPlex 仲裁服务器Witness推荐放置第三站点。