华为FusionCompute虚拟化平台升级操作文档



一、问题分析与解决思路

 

问题描述:在一段时间内,FC平台中的多台CNA主机偶发性自动重启,随即导致主机中部署的虚拟机自动重启,严重影响线上业务。

 

解决方案:经研究,基本上排除了是服务器硬件问题导致的可能性,怀疑是FC虚拟化平台的问题。于是,收集了自动重启主机中的日志,提供给华为工程师分析,得出以下结论。

 

【日志收集方法】

1)使用putty工具登录虚拟机所在的主机(以gandalf用户,通过管理IP地址登录,默认密码为Huawei@CLOUD8);

2)执行su命令,并按提示输入root用户的密码,切换至root用户;

3)执行TMOUT=0命令,防止PuTTY超时退出;

4(cp -r/var/log/CNA04/04/19    /home/GalaX8800/),注意CNA04为主机名,不同主机主机名不同,04为日期,此处以4日举例,19419:00,还请根据实际告警产生日期修改;

5(chown -Rgandalf:GalaX8800 /home/GalaX8800/19)

6)使用gandalf账户通过winscp登录主机,将目录/home/GalaX8800/19/拷贝出来并打包;

7)拷贝完成后,请删除19目录(rm -r/home/GalaX8800/19/

 

【日志分析结果】

Jun 4 20:00:02 CAN04 syslog-ng[5110]: Newconfiguration initialized;
Jun 4 20:00:02 CAN04 kernel: [14785708.976661] xen_clocksource_read: 216918callbacks suppressed
Jun 4 20:00:02 CAN04 kernel: [14785708.976661] clocksource/9: Time wentbackwards: ret=34873882edfc52 delta=-17243953 shadow=34873876d79440offset=c16ac2b
Jun 4 20:00:02 CAN04 kernel: [14785708.976661] clocksource/9: Time wentbackwards: ret=34873882eeecea delta=-17239885 shadow=34873876d79440offset=c1759f6
Jun 4 20:00:02 CAN04 kernel: [14785708.976568] clocksource/3: Time wentbackwards: ret=34873883467f75 delta=-11500738 shadow=348738772ee0a9offset=c17a101

FusionCompute V100R006C00U1版本存在的问题一

 

【预警公告内容】

FusionSphere虚拟化平台TSC时钟回退造成CPU死锁问题预警

 

预警编号:EIT-P-B-201703

重要程度

重要

紧急程度

紧急

涉及产品

FusionSphere

涉及版本

FusionCompute V100R006C00

FusionCompute V100R006C00U1

涉及应用

范围

时钟偏差超过10MS,系统频繁打印时钟回退日志。

发布时间

2017-1-16

预防要求

按本资料指导进行规避或根本解决。

参考工时

0.5人天

 

【问题描述】

上述涉及版本中,多核CPU服务器使用TSC时钟源,会概率触发时钟偏差。当不同CPU间的时钟偏差超过10MS,内核就会频繁打印时钟回退的日志。内核调度实时任务的处理逻辑存在因打印时钟回退日志造成CPU死锁的问题。

 

【触发概率】

涉及版本

触发条件

FusionCompute V100R006C00

FusionCompute V100R006C00U1

时钟偏差超过10MS,系统频繁打印时钟回退日志。

 

影响风险】

频繁打印时钟回退日志,造成CPU出现低概率死锁,引起主机复位。

【问题判断】

使用gandalf用户登录CNA节点,切换到root用户,执行grep "Time went backwards" /var/log/messages命令,如果有回显,表示涉及此预警问题。如下截图表示没有回显,暂不涉及此预警。

wKioL1mz_8uhZMYVAAAKv02f_Xs024.png

【解决方案】

规避措施:

1、使用gandalf用户登录CNA节点,切换到root用户,执行命令:   

echo 18446744073709551615 >/proc/sys/xen/permitted_clock_jitter

wKiom1m0AA6Cjy1wAAAVjQL3mu0605.jpg

2、执行cat/proc/sys/xen/permitted_clock_jitter命令,如果回显信息如下截图,则表示规避

措施执行成功。


  wKioL1m0AB2jdEidAAALUjswUsY385.png

解决措施:

    升级到FusionCompute V100R006C00U1SPC002版本

 

FusionCompute V100R006C00U1版本存在的问题二

 

【预警公告内容】

FusionSphere主机内存不足时批量部署模板虚拟机导致主机重启问题预警公告

 

预警编号:EIT-P-B-201704

重要程度

重要

紧急程度

紧急

涉及产品

FusionSphere

涉及版本

FusionCompute V100R006C00

FusionCompute V100R006C00U1

涉及应用

范围

1  有使用虚拟化SAN数据存储。

2  主机内存可用内存不足。

发布时间

2017-1-16

预防要求

按本资料指导进行根本解决。

参考工时

0.5人天

 

问题描述】

关联虚拟化数据存储的CNA节点在可用内存不足(<500M)的情况下,进行虚拟机模板部署等读/写大文件的动作时,就有概率导致主机因内核栈溢出发生重启。

 

【触发因素】

涉及版本

触发条件

FusionSphere V100R006C00所有版本

1、CNA节点关联虚拟化数据存储。

2、CNA节点可用内存不足。

3、模板部署/克隆虚拟机、虚拟机存储热/冷迁移等读/写大文件的动作。

 

触发概率】

满足以上条件小概率触发。当dom0内存只有2U3G时,问题触发概率会增大。

【判断方法】

1. 是否有关联虚拟化SAN数据存储;

2. CNA节点内存不足(小于500M)

putty登陆每个CNA节点,使用free -m命令查询主机可用内存,如下图:

wKiom1m0AICDM1eXAAAqTpCSsc8878.jpg

当上图红框的数值小于500时,就代表可用内存不足500M

3. 满足上述2个条件,则进行模板部署/克隆虚拟机、虚拟机存储热/冷迁移、导出模板这些读/写大文件的动作可能触发该问题产生。

【影响风险】

主机重启,主机上的虚拟机发生HA。

【解决方案】

 规避方案:

 1、将dom0的内存规格调整到8U8G,重启主机生效。

 2、实施本规避措施后问题触发概率较未实施规避措施前下降90%。

 解决方案:

  1、FusionComputeV100R006C00U1SPC002补丁版本解决该问题。

 

经过分析,FusionSphere虚拟化平台TSC时钟回退造成CPU死锁是导致本次主机重启的根本原因,临时的解决方法就是将系统的允许时钟偏差调大,但是此解决措施对FC平台存在的问题二不生效,根本的解决方法就是升级版本,尽快升级到SPC002+SPH001 ,先升级到SPC002,然后打上SPH001补丁。


二、升级方案

(1) 升级前准备

1.升级工具软件包已下载至本地

2.待安装补丁的部件软件包已下载至本地

 wKioL1m0AKqjuE9DAAA01RYv7I8792.png

 3.待安装补丁部件的节点的浮动IP、管理IP、用户名及密码、端口信息已获取

 4.操作系统为win7的本地PC机,保证不会进入睡眠或休眠状态

 5.集群资源控制 > HA配置 > 接入控制”将“开启”去勾选

 6.选择“IMC配置”查看“状态”是否为“已开启”,关闭非“停止”状态虚拟机

 7.升级进行前管理数据备份,将备份路径下的数据拷贝至本地PC

 8.升级工具的解压缩路径不能包含中文字符

 9.请在启动升级工具前清空浏览器缓存

 10.VRM节点在升级前需手动屏蔽ALM-15.1005009数据存储异常告警

 11.将CNA01和CNA02上的业务虚拟机迁移至其他CAN,留下测试虚拟机

 12.修改ntp服务器,解除VRM时间不同步告警


(2)升级流程图

wKiom1m0Ah-BAYcPAABkOEFEF_Q755.png

 wKiom1m0AnTTIkQ7AAAzwNdZBB4735.png

三、FusionCompute V100R006C00U1SPC002版本升级具体操作

  wKioL1m0AorjBUECAABMg6gscYc194.png

1. 升级工具:FusionToolV100R005C00SPC311 UpdateTool.zip

下载地址:http://support.huawei.com> 产品软件 > 运营商IT > 云计算数据中心 > FusionSphere> FusionTool > FusionTool V100R005C00SPC311

 

2. 升级软件包:FusionComputeV100R006C00U1SPC002_Upgrade.zip

下载地址:http://support.huawei.com> 产品软件 > 运营商IT > 云计算数据中心 > FusionSphere> FusionCompute > FusionCompute V100R006C00U1SPC002

 

3. 能连接FC平台网段的本地PC

Windows XPWindows 7Windows 2003Windows 2008Windows 201232位或者64位操作系统

注:使用该PC机进行补丁安装的过程中,请确保该PC机不会进入“休眠”或“睡眠”状态

 

4. 分别解压升级工具和升级软件包至两个目录,解压路径不可包含中文

 

5. 启动升级工具

  a.进入升级工具解压目录,双击start.ext运行升级工具,待出现以下提示“start servicesucceeded”,点击“OK”,此时会进入浏览器页面,但是仍无法加载到upgrade tool的登录界面。

wKioL1m0AvGCxr1hAAAPz9BTpV0578.png


  b.第二步,打开windous的“运行”,输入“services.msc”进入服务管理,找到upgradetool项,单击右键,选择“启动”,待启动完成,刷新浏览器界面,即可打开upgradetool登录界面。

wKiom1m0A0aTLeyWAAA4anja8xo158.png


6. 登录upgradetool工具,初始登陆账号是admin,密码为“Huawei@CLOUD8!

点击“新建升级过程”进入升级流程。

wKioL1m0A1-ihzFJAADosSyojUo379.png



7. 升级节点类型选择,此处我们进行的是Fusioncompute平台的升级,要把VRMCNA的升级创建在同一个工程中,因此,要同时勾选VRM项和CNA项。

wKioL1m0A7qjs1kiAAC2a2soAn8336.png


8. 配置软件包路径,软件包路径需要填写绝对路径,点击“下一步”,工具会自动进行软件包校验,当提示软件包校验成功后,会自动进入下一步。

wKiom1m0BDTRLePwAAC-hAlWZck810.png


9. 升级节点信息配置,VRM部署方式选择“主备”,把主备VRM节点的信息按照要求填写,填写完成后进行“参数校验”,校验成功就可以“创建工程”了。

wKiom1m0BHCQ-oY2AAClCVnSIJk351.png


10. 创建工程后,节点拓扑显示在界面左侧的导航树中,先对主备VRM进行升级,第一步是分发软件包,勾选升级界面左侧导航栏中的主备VRM,同时进行软件包的分发,分发过程需要的时间大概为10分钟。

 

11. 软件包分发成功后,下一步是进行升级检查,同时勾选主备VRM,点击升级检查,此过程需要的时间大概为5分钟。

 

12. 升级检查成功后,就可以进行VRM升级了,同时勾选主备VRM,点击升级,升级过程中,主备VRM会自动重启(所有CNA主机以及部署在主机上的其他虚拟机均不会重启),此时不可以使用FC平台,整个升级过程需要时间大约为20~45分钟。

 

13. 升级完成后进行升级后检查。 VRM为主备部署时,主备节点均补丁安装成功后,如果在升级工具上VRM主备均显示为备状态,请刷新升级工具页面重新获取VRM主备状态,直到VRM主备状态正确(如果超过三分钟VRM主备节点仍均显示为备状态,请联系华为技术支持)

 

14. 至此,VRM的升级操作完成。

 

15. VRM升级完成之后,需要对CNA升级,CNA的升级顺序是:VRM所在的CNACNA01——>其他CNA(CNA03-07)——>VRM所在的CNA(CNA02)

 

16. 首先,勾选左侧导航栏的所有CNA节点(也可以分批进行),进行软件包的分发,此过程大约需要10分钟。

 

17. 软件包方法完毕,勾选左侧导航栏的所有CNA节点(也可以分批进行),进行升级前检查,此过程大约需要5分钟。

 

18. CNA01(备VRM节点)进行升级,升级方式包括离线模式和在线模式,如果不可以停虚拟机(线上业务不中断)就选择在线模式,如果可以停虚拟机,就选择离线模式。在线模式升级有前提条件:CNA主机上不存在存储为本地硬盘的虚拟机,虚拟机tools已启用,主机的CPU和内存足够。离线模式比在线模式简单(将所有虚拟机关闭即可),升级安全系数更高一点。

 

离线模式

1、手动关闭

  用户需要在FusionCompute上手动关闭升级主机节点上的除VRM之外所有虚拟机(如果VRM为虚拟化部署,工具会自动关闭VRM虚拟机),升级完成后需要在FusionCompute上手动启动关闭的虚拟机(VRM为虚拟化部署时,如果VRM虚拟机为工具自动关闭将会在主机升级后自动被工具拉起。需要等VRM虚拟机启动成功后再做其他升级动作)

2、自动关闭

  工具将自动关闭升级主机上的所有虚拟机,升级完成后,工具会在主机升级后尝试自动启动已经关闭的虚拟机,如果存在启动失败的情况,则需要手动在FusionCompute上启动虚拟机(如果VRM为虚拟化部署,需要等VRM虚拟机启动成功后再做其他升级动作)


3、冷迁移

说明:

冷迁移模式将由工具自动关闭升级主机上的虚拟机,并快速在其他主机上启动。

在选择冷迁移模式下,选择当冷迁移失败时是否继续升级。

 

在线模式

自动迁移所选CNA上的全部虚拟机,如果系统中存在部分虚拟机不能迁移(如绑定主机、存储为本地硬盘、绑定图形处理器、绑定USB设备,没有安装PV Driver等不能进行迁移),请选择是否关闭虚拟机,如果,升级工具会自动关闭不能迁移的虚拟机并进行后续升级操作;选择,升级工具不会关闭虚拟机但是会继续升级,有未关闭的虚拟机节点会置为失败状态;本次操作过程中,工具会自动将所选CNA进入维护模式,升级完成之后自动退出。(如果VRM为虚拟化部署,VRM虚拟机无需处理,工具会自动关闭VRM虚拟机,如果VRM为工具自动关闭将会在主机升级后自动拉起。需要等VRM虚拟机启动成功后再做其他升级动作)

wKiom1m0BS7jaepDAAC45GbCoy8696.png

19. 线上业务不能停止,因此本次升级选择的是在线模式。在线模式有“检测是否存在不可迁移的虚拟机”选项,点击即可进行检测,若存在不可迁移的虚拟机,会出一张excl表,打开可看到不可迁移的虚拟机ID以及不可迁移的原因。注意,VRM虽然是不可迁移的,但是它不算是“存在的不可迁移虚拟机,主机会对VRM进行自动重启

 

20. 确认无不可迁移的主机后,可继续进行升级,首先,upgradetool会自动迁空主机,这一步不会算在升级时间内,迁移虚拟机的时间最长为11分钟,超过这个时间就会显示迁移失败。迁空主机后,即进入升级步骤,升级过程中(到56%左右)CNA主机会进行重启,升级时间在25~45分钟内,超时则升级失败,主机需要进行回退。

 

注:CNA主机升级完成后先不要急着进行操作,因为主机可能会再次重启,等待5~10分钟,主机运行稳定后再做后续操作。

 

: 主机回退流程,回退时间耗时40分钟

 

wKiom1m0BXbiTG3yAAAeiPDxRTE180.png

wKioL1m0BXWTqZliAAEPGcF649M283.png

21. 升级其他CNA主机,重复执行步骤16~步骤20,可分批进行,也可同时进行(不超过256个节点主机)。分批进行较为安全,同时进行升级较为省时,但是要考虑主机的负载情况。

 

22. 最后升级CNA02(主VRM),升级步骤和其他CNA相同。不同的是,升级之前升级工具会自动先将VRM进行主备倒换,这是为了确保整个升级过程都能在FC平台监控下进行,VRM主备倒换大约需要5分钟,之后即可继续使用平台进行操作或监控。

 

23. 升级完成后,观察2天,2天后平台运行无异样,即可再次登录升级工具,点击提交工程,提交工程完成后,点击结束工程。

 

24.FusionComputeV100R006C00U1SPC002版本升级完成。

 


附: 本次升级过程中遇到问题及解决方法

1.

问题:升级前准备工作,FC平台告警VRM与ntp服务器同步异常

 

解决方法:找一个精确的外部时钟源,将主VRM所在的CNA(CNA02)手动与之同步时间,之后,将CNA02设置为内部时钟源。登录到CNA02,执行以下命令将节点的NTP时钟源设置为该节点本身:perl/opt/galax/gms/common/config/configNtp.pl-ntpip 127.0.0.1 -cycle 6 -timezone  Asia/Shanghai(当地时区)  -force true  等待3分钟后,执行ntpq -p命令

显示类似如下信息:

 remote          refid      st t when poll reach   delay  offset  jitter

==========================================================================

*LOCAL(0)        .LOCL.           5 l  58   64  377   0.000    0.000   0.001

查看“LOCAL”前是否已有“*”号,表示节点时间服务已正常,可作为NTP时钟源,如果还未出现“*”号,需要等待510分钟,再次执行ntpq -p命令查看时     间服务状态。

内部时钟源设置好之后,即可更改FC平台的ntp服务设置,将ntp服务器ip填写CNA02ip地址,保存之后,FC服务会进行重启(不会任何重启虚拟机和CNA),这个过程将无法使用FC平台,持续时间大约5分钟。FC服务重启完成后,登陆平台,查看告警“VRM与ntp服务器同步异常”是否正常清除,提示正常清除后说明ntp服务配置成功。

 

2.

问题:虚拟机存储为本地硬盘(虚拟化,精简配置),无法进行自动迁移虚拟机,也无法将数据迁移到挂载的存储上,因为挂载的存储空间不够。

 

解决方法: 再临时挂载一个共享存储到此CNA主机,手动将数据迁移到此共享存储上即可。

 

3.

问题:进行热升级时,自动迁移CNA主机上的虚拟机失败,提示“VRMntp服务器同步异常”。虚拟机通过工具的自动迁移,资源调度不合理,致4台虚拟机重启,线上业务中断。

 

解决方法: 在升级工程中,可通过手动热迁移虚拟机到资源充足的CNA主机上,这样就不会再出现资源利用不合理的问题。

 

4.

问题:虚拟机手动迁移,FC平台显示迁移成功,但虚拟机死机,VNC也无法登录。

 

解决方法:马上通过FC平台的强制重启功能进行重启(相当于断电重启),迅速恢复服务器的应用,将业务影响降到最低。后续解决方法是通过创建虚拟机快照,防止虚拟机崩溃后无法恢复。

 

5.

问题:tools工具未运行,启动此服务提示tools需要在xxxx-xx-x内核版本下运行,导致无法进行热迁移。uvp-monitor需要运行在tools安装时的系统内核版本下,一旦linux系统内核升级(自动升级,可关闭)tools将无法运行。同时,卸载tools的操作也要回退到之前的内核版本中才能执行。这意味着需要重启虚拟机。

 

解决方法:热迁移操作无法进行,只能选择在服务器业务量少的时候进行停机,再对CNA进行升级操作。

 

6.

问题:VRM主备倒换后,FC平台告警DNS配置不可用,同时,只可以在内网登录FC平台,外网始终无法登录。外网无法ping通主VRM(VRM01)

 

解决方法:通过检测分析,很有可能是VRM01的网络配置出了问题。VNC登录VRM,发现路由表中缺少网关配置,手动添加一条默认路由,网络问题解决,DNS告警正常清除。

 

7.

问题:迁移磁盘时速率和虚拟机压力问题。

 

解决方法:磁盘迁移时可以选择迁移速度,有适合、较快、不限速三个选项,适合耗用资源最少,基本上不影响虚拟机上的业务运行,但是速度很慢,1T容量(精简配置)的磁盘需要迁移12小时。较快选项会造成虚拟机压力过大,影响业务运行的情况,但是迁移速度大大加快,比适合选项的速度快5倍以上,可选择业务量少的时候执行。不限速的选项不宜用在业务机上。

 

8.

问题:×××不稳定。

 

解决方法:升级过程中,始终要保持网络畅通。防止网络中断的最好方法就是到现场机房,用网线直接连接交换机再进行升级操作。



四、FusionCompute_V100R006C00U1SPH001升级具体操作

 

流程图

 

wKiom1m0BePBXuiSAABHAksF8oI591.png

1. 升级工具FusionTool V100R005C00SPC511 UpdateTool.zip

下载路径:

http://support.huawei.com > 产品软件 > 运营商IT > 云计算数据中心 >FusionSphere > FusionTool > FusionTool V100R005C00SPC511

 

2. 升级补丁包FusionCompute V100R006C00U1SPH001_Upgrade.zip

下载路径:

http://support.huawei.com> 产品软件 > 运营商IT > 云计算数据中心 > FusionSphere >FusionCompute > FusionCompute V100R006C00U1SPH001

 

3. SPH001补丁包的升级过程与SPC002升级过程相同,只是不必进行VRM的升级了。并且,安装SPH001补丁包不需要重启CNA主机和虚拟机,也就不区分升级模式了,统一为热升级模式。升级过程中不会对业务造成任何影响。

 

4. 升级后验证

    a. 查看CAN版本,打开每个CAN节点查看 UVP 版本信息,升级安装成功后的 DOM0 的版本号是 V200R002C00SPH780B010。

cat/etc/uvp_version | grep "patch_version="

    b. 验证创建虚拟机、设置高级属性、迁移虚拟机、删除虚拟机等功能是否能正常执行

 

5. 验证无误后,即可提交工程——>结束工程

 

6. FusionCompute_V100R006C00U1SPH001升级完成。

 

五、结束

 

SPC002+SPH001升级成功,整个升级操作结束。