一天,集群中的主机上的vsphere HA主机状态都错误  “无法正确安装或配置 vSphere HA 代理 ”,看HA摘要是初始化错误。一开始排障的思路是搜索HA初始化错误或者安装ha代理的解决方案。

1.首先尝试 重新配置vsphere HA,显示下列错误。

VSPHERE PostgreSQL运行状况警报 vsphere ha正在进行故障切换_vcenter

2.然后找到KB文档https://kb.vmware.com/articleview?docid=2056299&lang=zh_CN,认为无法安装vcenter server代理服务的原因可能是第三方 VIB 为 vmware-fdm 代理创建了依赖关系,导致 vCenter Server 无法移除该代理并安装新版本的 FDM 代理。

(尝试从ESXI主机上删除FDM代理  esxcli software vib remove -n vmware-fdm)

【注意 所有VIB的操作需要主机处于维护模式,否则可能会导致主机出现错误,使得业务中断。而此处是仅处理FDM代理,不是删除VIB】

VSPHERE PostgreSQL运行状况警报 vsphere ha正在进行故障切换_解决方案_02

(删除失败,提示设备没有空间,然后看下事件,/tmp目录无法写入文件)

VSPHERE PostgreSQL运行状况警报 vsphere ha正在进行故障切换_vcenter_03

3.发现/ tmp目录中的“ ams-bbUsg.txt”文件占用很大空间如256M,导致/ tmp目录文件系统满,导致其他应用程序依赖于tmp的也无法写入文件,导致应用程序异常报错。

 

VSPHERE PostgreSQL运行状况警报 vsphere ha正在进行故障切换_解决方案_04

4.这是由于HPE服务器运行的AMS,使得AMS的日志填充会导致tmp目录文件系统不断增大,因为空间满引起VMware Update Manager更新失败以及ESXi主机无响应。 

受影响的服务器型号:

HPE Gen9/10 服务器

受影响的操作系统版本:

VMwareESXi 6.0 or VMware ESXi 6.5 or VMware ESXi 6.7

导致问题出现的软件AMS版本:

11.4.0版本

VSPHERE PostgreSQL运行状况警报 vsphere ha正在进行故障切换_服务器_05

 

5.解决方案: 

  • 临时方案                                                                                                                                                                           可以定期删除"ams-bbUsg.txt"file in the /tmp 以释放文件系统空间,对VMware VSAN和VMware vSphere环境来说,定期清理ams-bbusg.txt文件,不会引起任何风险,而且可以在线操作。可以使用echo ' ' > ams-bbusg.txt 命令将文件大小置零(推荐使用该方式);也可以直接删除ams-bbusg.txt文件。
  • 永久解决方案(需将主机处于维护模式)                                                                                                                                通过升级VMware AMS to version 11.4.5(included in the HPE Offline Bundle forESXi version 3.4.5),此版本已明确修复AMS filling up tmp andcausing VUM updates to Fail安装方法如下:(1)关闭或迁移虚拟机将主机进入维护模式(2)上传esxi6.0uX-mgmt-bundle-3.4.5-8.zip到主机(3)#esxcli software vib install -d <ESXi localpath><bundle.zip>(4)重启生效,通过esxcli software vib list | grep ams确认升级的AMS版本

相关参考链接:

ESXi 系统tmp目录100% 导致其依赖/tmp的程序无法写入文件:https://www.jianshu.com/p/b28346e76e45

HPE服务器AMS11.4.0导致/tmp问题:https://support.hpe.com/hpesc/public/docDisplay?docId=emr_na-a00073323en_us

无法正确安装或配置 vSphere HA 代理的KB之一:https://kb.vmware.com/articleview?docid=2056299&lang=zh_CN