CPU个数引起服务器软件启动失败的事故

 

 

红朝儒生

2015-8-23

 

关键字:CPU 硬件 软件 故障

简介:修改服务器的CPU个数,引起网站系统无法启动。这样的故障,真难得。

 

 

  我司服务器是租用的,原来是8核CPU。为什么是8核?不是4核?不是2核?并没有具体的数据来表示。近日,公司一员工检查服务器负载,发现负载很低。于是,就建议改成2核。这个理由数据很明确,顺理成章的就同意了。跟出租方协商之后,于某日更改配置。

  第二天早上,服务器系统不能用了。怎么回事?于是赶紧重新启动网站,失败;再启动,再失败。嗯?这就怪异了。以前偶尔启动失败,再启动肯定成功,怎么今天无法启动了?几个人开始检查启动参数。

  吾提出质疑:网站系统、启动参数都没有任何变化,怎么就无法启动了?唯一的变化,就是CPU个数。没错,CPU个数不会影响软件,但是唯一的变化参数,就是CPU个数。

  公司大头目也发现了这个特点,于是要求:立即改回去,使用8核!再启动网站启动,顺利成功。

  

  初步分析原因,是服务器启动时,很多终端一齐来建立链接。2核来不及处理,于是嗝屁了。为什么是嗝屁,而不是性能变慢?待查。

  

  出了这个事件,吾专门做了一个总结文档,在会议上解读。吾评论说,此事故超出了吾等经验范围,没有人有责任。吾很高兴的说,能遇到这样的硬件配置变化影响软件的事故,也是很幸运的,因为很难得。这对于以后判断问题,是一个很好的经历。