在同一个vSphere数据中心中,如果创建多个vSAN群集,那么每个vSAN群集的ESXi主机应该都是全新安装的操作系统。如果从一个vSAN群集中移除ESXi主机,再在同一个数据中心中创建新的vSAN群集,那么只会显示一个vSAN存储,并且vSAN存储的容量大小显示不正确。近期在使用vSphere 6.7.0 U3进行测试时就出现了这个故障,现在将实验回顾一下,希望对其他读者有所帮助。在本次实验中,ESXi版本号为6.7.0-14320388,vCenter Server版本号为6.7.0-14368073,这是vSphere 6.7.0 U3的版本。

1 问题现象

当前有一个vSAN的实验环境,4台ESXi主机,管理地址分别是172.18.96.41~44,vSAN的地址是192.168.0.41~44,vSAN专门用了一台万兆交换机。管理地址接到另一台千兆交换机上。每台机器64G内存,每台机器一个磁盘组,1块SSD、2块2TB,这台vSAN使用正常。正常情况下vSAN存储的容量是14.55TB。

然后在这个vCenter中,添加了一个新的群集,2节点vSAN。每台ESXi主机96G内存,这2台主机vSAN流量网卡使用光纤直连(万兆网卡)。每台1个磁盘组,1个SSD,3块2TB。见证主机在另外一台单独的ESXi主机中。正常情况下这个vSAN存储的容量是10.92TB。

自从这个vSAN群集添加之后,在vSphere Client中,无论是浏览原来的vSAN群集还是浏览现在的这个新添加的vSAN群集,显示的vSAN存储只有后来添加的这一个了(容量为10.92TB)。如图1、图2、图3所示。

clip_image002

图1 数据中心中查看存储

clip_image004

图2 2节点直连看存储

clip_image006

图3 原来的vSAN存储

原来的vSAN群集磁盘管理、vSAN监控信息都正常,如图4所示。

clip_image008

图4 原来的vSAN磁盘管理

第2个vSAN群集磁盘管理中显示也是正常,如图5所示。

clip_image010

图5 第2个vSAN群集磁盘管理

使用SSH登录第一个vSAN群集中的其中一台主机,执行esxcli vsan cluster unicastagent list,看到单播信息正常,如图6所示。

clip_image012

图6

登录第2个vSAN群集中的一台主机,例如172.18.96.45,信息也正常,如图7所示。

clip_image014

图7

clip_image016

图8 第1个vSAN群集2 vSAN监控

clip_image018

图9 第2个vSAN群集

尝试将第2个vSAN群集移除后,第1个vSAN群集vSAN存储显示为0(如图10所示),禁用HA再启用后恢复正常。

clip_image020

图10 vSAN存储为0

clip_image022

图11 重新配置HA后正常

然后再次在数据中心中新建vSAN群集,添加2节点主机之后故障再次出现。

2 创建多个数据中心

因为前面的实验是在同一个数据中心中创建多个群集。接下来创建了2个数据中心,每个数据中心各放一个vSAN群集。在添加vSAN群集时,仍然是使用相同的实验主机。但本次实验发现,在同一个vCenter中创建多个数据中心、每个数据中心有一个vSAN群集时,每个数据中心中vSAN存储显示正常。如图12所示,图中一共有3个数据中心,每个数据中心中有一个vSAN群集,在vCenter一级可以显示出3个vSAN存储。

clip_image024

图12 多个数据中心多个群集显示正常

既然多个数据中心、多个群集,vSAN存储显示正常,那么在同一个数据中心多个群集应该也可以。因为以前做过类似的实验。以前vSphere 6.5、vSphere 6.7的时候都做过,只是这次vSphere 6.7.0 U3出错,以为是新版本的bug。

后来我想,这些计算机最初都是在一个vSAN群集中,最初这是一个由12台主机组成的vSAN群集,只是最后从群集中移除了8台主机,将vSAN群集收缩到4台。从群集中移除的这8台ESXi主机也没有重新安装系统,会不会是这个原因呢?

然后我只保留172.18.96.41~172.18.96.44的vSAN群集,其他主机全部重新安装。在重新安装后,在一个数据中心中创建2个群集,每个群集添加不同的ESXi主机并配置vSAN,这次实验之后发现,实验成功,如图13所示。

clip_image026

图13 实验成功