一天,集群中的主机上的vsphere HA主机状态都错误 “无法正确安装或配置 vSphere HA 代理 ”,看HA摘要是初始化错误。一开始排障的思路是搜索HA初始化错误或者安装ha代理的解决方案。
1.首先尝试 重新配置vsphere HA,显示下列错误。
2.然后找到KB文档https://kb.vmware.com/articleview?docid=2056299&lang=zh_CN,认为无法安装vcenter server代理服务的原因可能是第三方 VIB 为 vmware-fdm 代理创建了依赖关系,导致 vCenter Server 无法移除该代理并安装新版本的 FDM 代理。
(尝试从ESXI主机上删除FDM代理 esxcli software vib remove -n vmware-fdm)
【注意 所有VIB的操作需要主机处于维护模式,否则可能会导致主机出现错误,使得业务中断。而此处是仅处理FDM代理,不是删除VIB】
(删除失败,提示设备没有空间,然后看下事件,/tmp目录无法写入文件)
3.发现/ tmp目录中的“ ams-bbUsg.txt”文件占用很大空间如256M,导致/ tmp目录文件系统满,导致其他应用程序依赖于tmp的也无法写入文件,导致应用程序异常报错。
4.这是由于HPE服务器运行的AMS,使得AMS的日志填充会导致tmp目录文件系统不断增大,因为空间满引起VMware Update Manager更新失败以及ESXi主机无响应。
受影响的服务器型号:
HPE Gen9/10 服务器
受影响的操作系统版本:
VMwareESXi 6.0 or VMware ESXi 6.5 or VMware ESXi 6.7
导致问题出现的软件AMS版本:
11.4.0版本
5.解决方案:
- 临时方案 可以定期删除"ams-bbUsg.txt"file in the /tmp 以释放文件系统空间,对VMware VSAN和VMware vSphere环境来说,定期清理ams-bbusg.txt文件,不会引起任何风险,而且可以在线操作。可以使用echo ' ' > ams-bbusg.txt 命令将文件大小置零(推荐使用该方式);也可以直接删除ams-bbusg.txt文件。
- 永久解决方案(需将主机处于维护模式) 通过升级VMware AMS to version 11.4.5(included in the HPE Offline Bundle forESXi version 3.4.5),此版本已明确修复AMS filling up tmp andcausing VUM updates to Fail安装方法如下:(1)关闭或迁移虚拟机将主机进入维护模式(2)上传esxi6.0uX-mgmt-bundle-3.4.5-8.zip到主机(3)#esxcli software vib install -d <ESXi localpath><bundle.zip>(4)重启生效,通过esxcli software vib list | grep ams确认升级的AMS版本
相关参考链接:
ESXi 系统tmp目录100% 导致其依赖/tmp的程序无法写入文件:https://www.jianshu.com/p/b28346e76e45
HPE服务器AMS11.4.0导致/tmp问题:https://support.hpe.com/hpesc/public/docDisplay?docId=emr_na-a00073323en_us
无法正确安装或配置 vSphere HA 代理的KB之一:https://kb.vmware.com/articleview?docid=2056299&lang=zh_CN