一、Vsphere使用

      VMware vsphere 在中小企业单位使用的应该是比较多的一款软件,这款软件也经历多年几代的发展目前已在7.0时代,也全面拥抱了容器化。借助vspere使物理服务器的资源充分利用,一个基础的使用环境一般包含vsphere系统本身还个是管理vsphere的vcenter系统。vsphere可单独使用但是在多台vsphere系统服务器的情况没有vcenter的话无法对vsphere集中管理失去了灵活性。

     一套完善的基础环境一般包含vsphere服务器、用于存储虚拟机文件的存储设备、Vcenter系统。vsphere支持的存储类型一般有NFS、SAN(FCSAN\ISIC SAN)当然前提使用有一台硬件级的存储设备(块存储、混合存储等)在这三者的配合可实现虚拟机跨主机的在线迁移、虚拟化的高可用等功能。

     当然也可以通过VSAN(存储虚拟化)的功能来组建共享存储来替代独立的硬件存储。VSAN是单独的许可,组建VSAN对硬件服务器的磁盘配置也有一定的要求,一般是SSD和大容量的机械硬盘组合,raid卡要使用直通模式。

    如果你供职一个小型企业,现有的环境中没有硬件级存储或者说没有预算组建VSAN但又要实现多台物理主机的及虚拟机的集中管理迁移高可用等功能的话,可以通过一些开源的存储软件来实现共享存储(iscsi san)的搭建比如:truenas、openfiler等。

二、vsphere/vcenter的运维

      正常情况下 vsphere使用是比较稳定的,当然也有一些意外,笔者也经历过一些故障现象

1、升级版本时预到紫屏现象

      紫屏是vsphere系统故障提示类似windows系统的蓝屏,在一次版本升级过程中就预到过一次这样的现象,原版本和服务器运行稳定已两三年,后续在升级vsphere版本过程中出现了紫屏,根据日志提示定位为FC光纤卡插槽处问题,打开机箱更换FC卡的插槽后升级得以正常进行。其实这个问题也有些不解已正常使用很长时间了在升级前卡槽位也是正常的,但是升级过程中就不得通过。

2、vsphere 莫名的死机

      某天接到报修电话说部门服务器无法提供服务了,服务器也无法远程连接,但服务器的IP地址是能ping通的,根据报修信息登录到Vcenter发现反馈有问题的虚拟服务器都来自某台vsphere主机,在vcenter的状态中此主机也是正常状态。进入机房直接打开该物理服务器的系统控制台当输入完密码后,整个系统都卡在那没任何的故障提醒和反应,只能硬重启。

      最初以为是该台服务器硬件问题才造成该现象的出现,但没过多久其他两台服务器也出现了该类现象,那自然可排除单台服务器硬件的问题了,后仔细查看vcenter的日志才发现一个比较重要的信息,有提示后端存储路径的IO延时较高的警示,而该IO路径都来自于一台iscsi的存储,查看后端共享存储没明显异常,整个IO的较为平稳。针对这个故障决定将iscsi上的虚拟机部分迁移至另一台FC SAN存储上。

    当迁移到不在频发报IO延时高后,该故障现象未在有发生了。判断造成故障还是出在那台iscsi存储性能瓶颈上。

三、一些建议

使用运维过程中的一些建议:

1、vcenter日志需要定期查看,以捕捉有用信息;

2、在vsphere服务器数量比较多环境下同时网络采用了分布式交换机,建议部署VCSA的HA,同时建议VC做个数据备份任务,定期备份VC的数据库;

3、虚拟机上的快照应定期清理,不应留有过多的快照;

4、建立虚拟机级的备份机制,可以使用第三方软件对重要的虚拟机进行备份,但也可以自身免费的Replication组件去创建备份;

5、对于管理网络不应开放能访问外网的权限(2020年公布了部分版本有中勒索病毒的漏洞,后续公布了针对性的补救措施)