我们线上web环境比较简单,web服务器采用的是淘宝开源的tengine,开发语言则采用php,并启用php-fpm的监听。
事情要从1月29号下午说起,当时一个同事为给php添加多线程模块pthread,将线上php重新编译,结果编译完成后,前端web无法正常访问,页面一直报504错误。一时找不到解决办法,于是将php临时切换到备用php环境上,然后我在原来环境中按照以前的参数重新编译php,配置文件则直接使用原php配置文件,并于晚上10点30左右,将php从备用环境切回到我重新编译后的php环境中,并测试正常。此为前提。
1月30号早上,我在来公司的路上,还通过手机访问网站,确认新的php环境不会再出现504问题。但一到公司,并听到开发同事惊呼,网站又宕了,又是昨天的504错误。于是我检查环境,环境没有问题,在找不到办法的情况下,我重启php-fpm,然后网站恢复正常,2分钟之后,同事又开始反映网站无法访问,错误依然是504,于是我又重启php-fpm,如是再三,总是一重启就正常,隔2分钟就又开始报504。为了不影响线上业务,我重新将php切换到备用环境,然后开始排查问题根源。
既然最初504的问题起始于昨天下午同事重新编译php之后,那么该问题当于php有关,我查询php-fpm错误日志,找到如下信息:
[30-Jan-2015 09:30:12] WARNING: [pool www] server reached pm.max_children setting (5), consider raising it
[30-Jan-2015 09:30:45] WARNING: [pool www] server reached pm.max_children setting (5), consider raising it
[30-Jan-2015 09:31:05] WARNING: [pool www] server reached pm.max_children setting (5), consider raising it
[30-Jan-2015 09:31:18] WARNING: [pool www] server reached pm.max_children setting (5), consider raising it
[30-Jan-2015 09:31:26] WARNING: [pool www] server reached pm.max_children setting (5), consider raising it
[30-Jan-2015 09:31:39] WARNING: [pool www] server reached pm.max_children setting (5), consider raising it
根据提示,是因为php最大子进程数达到了上限,无法再接入新的请求,而允许的最大子进程数居然只有5。看到这个结果,我很奇怪,这是没有可能的。因为配置文件没有任何修改,直接copy的原配置文件。不管如何,先确认配置文件,果然,进程相关的配置项如下:
pm = dynamic
pm.max_children = 5
pm.start_servers = 2
pm.min_spare_servers = 1
pm.max_spare_servers = 3
为什么会这样?
我与昨天下午重新编译php的同事沟通,发现他在重新编译时,虽然将配置文件事先做了备份,但他在编译完成后,并未将备份的配置文件覆盖回来。换而言之,我从原配置环境中复制的配置文件是他重新编译php后生成的默认配置文件。这真是坑爹。当我重新找到他之前的备份文件,并将其恢复到新环境之后,网站终于恢复正常。
这次事件,并不是因为很复杂隐蔽的问题造成。但却造成了很严重的后果。而这次事件的根本原因还是团队的沟通问题以及个人的细心问题。如果同事在更新环境之前先行与我们沟通,不会导致编译参数出错的问题,如果他告诉我配置文件没有还原回去,我也不会去用那个默认配置文件。而如果我稍微细心一点,在复制配置文件的时候,做一下检查,也不会出现问题。
说到底,运维的工作还是要沟通与谨慎,希望以后不会再出现这样的问题。
转载于:https://blog.51cto.com/breezey/1609909