故障描述

收到告警工单,vc报主机32与某集群中的master主机丢失联系,处于不同的网络分区;查看vc事件台,发现告警如下:

vSphere Automation API获取主机 vsphere ha主机状态_隔离地址

vSphere Automation API获取主机 vsphere ha主机状态_无响应_02


vSphere Automation API获取主机 vsphere ha主机状态_无响应_03


故障集群有4台主机,分别为2,3,4,5主机。

分析

1、网络隔离:即集群中master主机可以通过共享存储检查到某从属主机存活,但是无法通过管理网络进行ping监测,且从属主机无法ping通故障隔离ip地址,故障主机代理无响应,从属主机声明主机被网络隔离。一般只要有一条上行链路正常,很少出现网络隔离
2、网络分区:集群中从属主机失去与首选主机(主代理主机)的网络连接,即通过管理网络无法ping通;
3、从事件记录里看,首先32主机HA代理报可用性无法访问,此时主代理主机为34;随后报出34主代理master主机与集群其他主机管理网络不通;接着报出32主机与集群中其他主机处于不通的网络分区中;第4步报32主机已从34主代理【分区】;5报32主机无法与隔离地址89.254通信;6报32主机HA可用性状况为:网络已隔离,主机上虚拟机断开,主机无响应,最后32主机恢复代理状态和从属角色,恢复连接,相关虚拟机启动,
3、从事件中查看,32主机网络管理端口处于down状态;
4、登录故障主机ipmi管理地址,检查确认网络硬件接口状态;
5、vc网路的交换机中检查上链线路端口状态。

处理

将故障主机置于维护模式,故障端口置于备用,或者直接将故障主机从当前集群中临时剔除,当恢复后重新加入;完成后联系主机运维同事检查32主机网卡接口状态。