1 远程UI管理卡死,无响应
重启 ESXi 主机守护进程和 vCenter Agent 服务
/etc/init.d/hostd restart
/etc/init.d/vpxa restart
2 网络问题引起的
要在特定 VMkernel 接口(默认为 vmk0)上重置管理网络,请运行以下命令:
esxcli network ip interface set -e false -i vmk0; esxcli network ip interface set -e true -i vmk0
3 ESXi主机网络连接不稳定或者瞬断
- ESXi主机
- ESXi的管理网络配置不正确
- port group的VLAN ID不对
- 网络卡的双工速率与P switch不匹配
- 网络连接中断
- NIC teaming的policy配置不当
- hardware
- 物理网络卡不在兼容列表范畴
- 物理设备本身故障
- 网络性能低下
检查vSS、vmnics和port groups
esxcfg-vswitch -l
检查port groups的VLAN ID:
esxcli network vswitch standard portgroup list
检查速率和双工模式:
esxcfg-nics -l
检查网络连接状态:
esxcffg-nics -l
port group VLAN 设定调整:
esxcli network vswitch standard portgroup set -p <pg_name> -v <vlan_id>
速率和双工模式调整:
esxcfg-nics -d <duplex> -s <speed> vmnic
ESXi 端口汇总
VMware ESXi 主机使用多种不同的网络端口来通信,这些端口包括用于管理、迁移、虚拟机通信等的端口。以下是一些 ESXi 常用端口的汇总:
- 管理和远程访问
- TCP 22: SSH,用于安全的命令行访问
- TCP 80: HTTP,用于重定向到 HTTPS
- TCP 443: HTTPS,用于安全的 Web 访问
- TCP 902: vSphere Client 访问,用于管理和迁移
- 虚拟机迁移
- TCP 8000: vMotion,用于虚拟机迁移
- 存储
- TCP 3260: iSCSI,用于存储连接
- TCP 2049: NFS,用于存储连接
- 虚拟网络
- TCP/UDP 53: DNS
- TCP/UDP 67,68: DHCP
- vSphere High Availability (HA) 和 Fault Tolerance (FT)
- UDP 8182: HA
- TCP 8100-8132: FT
- vSAN
- TCP/UDP 12345, 12346: vSAN
硬件功能验证
查看硬件信息,然后在官网的HCL查询设备是否在兼容列表中
esxcfg-nics -l
lspci -p ###查看是否由硬件故障导致
查看是否网络性能低下
esxtop或者resxtop
storage 的故障排查
故障类型:
- 存储连接故障
- 多路径故障
IP storage无法被ESXi主机访问
存储信息验证:
excli storage core path list ///确认ESXi主机能够看到存储(能够看到说明硬件层面没问题)
esxcli storage core adapter rescan -A <vmhba##> ///执行后一般能够恢复(target到initiator之间的重新握手)
故障原因分析
如果ESXi过去访问IP storage正常,在没有做任何变更的情况下出现故障,则可以参考如下流程,进行故障解决尝试
编号 | 层级 | 故障原因 | 备注 |
1 | ESXi | VMkernel接口配置丢失 | |
2 | ESXi | IP storage 访问ESXi的配置异常 | |
3 | ESXi | iSCSI TCP 端口 3260 不可达 | |
4 | ESXi | 防火墙干扰了iSCSI通讯流量 | |
5 | ESXi | NFS存储配置异常 | |
6 | ESXi | VMFS Datastore 存储 Metadata 被破坏 | |
7 | 硬件 | iSCSI存储阵列不被支持 | |
8 | 硬件 | LUN没有被正确的映射到适当的ESXi | |
9 | 硬件 | 物理硬件故障 | |
10 | 硬件 | iSCSI storage 性能不足 |
硬件问题检查
- iSCSI HBA卡或者iSCSI storage 阵列不被ESXi支持:可以在vmware的HCL里查看型号
- 确认LUN被正确的映射到适当的ESXi上
- 同一个存储组里的LUN是否被映射到所有ESXi上
- LUN的构建是否符合ESXi的使用标准
- LUN是否被设定为R/O
- 阵列上For ESXi的HOST ID是否小于255
- 存储设备故障:利用硬件工具诊断存储故障
- 存储性能检查:esxtop/resxtop后输入d查看
多路径故障
excli storage core path list ///确认ESXi主机能够看到存储(能够看到说明硬件层面没问题)
excli storage nmp device list ///LUN的多路径配置信息
esxcli storage core adapter rescan -A <vmhba##> ///执行后一般能够恢复(target到initiator之间的重新握手)