1、早上登录vCenter Server,左侧清单出现报警,如图1-1所示。


图1-1 报警界面

2、200的ESXi主机断开了连接,其上运行的虚拟机全部显示已断开(例如CA服务器,WSUS服务器等),还好有HA功能、DRS规则及群集故障转移,使得任一一台ESXi主机挂了,都会留一组虚拟服务器(AD+SQL+Fileshare)运行,保证管理服务器持续运行,闲话不多说,首先查看该主机的摘要信息,提示无法同步主机X.X.X.200。出现了常规系统错误:Unexpected exception reading HTTP response body:>>>>>>>,如图1-2所示。


图1-2 配置问题

3、既然ESXi主机断开连接,首先右键主机重新连接,添加主机进度到89%的时候,弹出一个窗口,如图1-3所示。


图1-3 系统错误

4、 unexperted exception reading HTTP response body: class Vmacore::Http::TruncatedResoponseException(While determining chunk size,truncated HTTP response.)with trace:

backtrace[00] rip 000000018013deba (no symbol)

backtrace[01] rip 0000000180101518 (no symbol)

backtrace[02] rip 0000000180101a5e (no symbol)

5、从提示来说,本人只看出了是发生了意外,然后毅然决然的重启了200的ESXi主机,结果大家应该能猜到,运行了十多台的ESXi主机启动花费了接近40分钟的时间,而且没有解决故障,如图1-4所示。


图1-4 重启

6、接下来进入vCenter的任务和事件,调出了近2天的任务和事件,虽然比较详尽的介绍了最近的登入登出信息,但确没有提及到这个意外错误的时间和事件,这个如何是好,事情进入了死角,如图1-5所示。


图1-5 导出事件

7、系统日志没看懂,如图1-6所示。


如1-6 系统日志

8、最后google ESXi主机断开连接的故障,有人提到虚拟机是否存在过多的非正常创建的快照,这让我想起了之前NBU备份时发生的一件奇怪的问题,就是NBU在每天的备份虚拟机的时候会建立快照,但做了群集故障转移的虚拟机 ,快照建立后但不会自动删除,于是乎,虚拟机的快照逐渐累积,想到这一点,立马进入数据存储中进行检查,发现一台JT-FS01的虚拟机存在大量的VMDK文件,接近229个VMDK文件,如图1-7所示。



图1-7 N多快照

9、删除方法并不是一个个的删除,而是建立一个快照,然后删除快照,这229个VMDK文件就消失了,可以看到红色框内快照,如图1-8所示。


图1-8 修改时间

10、重新添加ESXi主机,OK ,个人分析由于NBU备份的策略是先做快照,而建立了故障群集转移的虚拟机,NBU执行未能成功,于是重复建立10个快照,而NBU认为未建立成功,也不会去删除快照,所以虚拟机文件越来越大,最终导致故障。