故障背景

大数据集群中新增三台虚拟机(配置与老一批服务器配置一样),运行相同的服务,老一批虚拟机运行正常,新加的这三台运行异常,报错内容:watchdog: Bug: soft lockup – CPU……” (CPU 软锁)

故障排查

一开始以为是虚拟机模板的问题,新老服务器不是使用同一个模板部署,询问IT后得知,虚拟机模板一样。谷歌下发现有类似的问题,详见解决 Linux 运行时报错 “watchdog: Bug: soft lockup – CPU……” (CPU 软锁)。按照文档使用缓解方法进行测试,结果还是CPU软锁。

故障处理

经过排查发现是CPUMEM资源受限导致的,所以导致CPU软锁的原因有很多,但这里你可以着手从以下问题点排查:

(1)虚拟机CPU的类型

如果使用的不同cpu配置或类型,在跑同样的大数据服务时,有可能会因cpu型号不同导致锁的问题。

(2)虚拟机资源限制(本次故障原因)

我们在使用虚拟机模板部署服务器时,有可能模板中对虚机CPU和内存资源做了限制导致的,如分配CPU资源16c,但限制为4c。

(3)看门狗软锁CPU

可参考本文中链接文档中的内容,进行相关调试。

参考文档