线上一台机器(该论坛所在机器)近期频繁出现502,每100次访问就会出现10次,这频率也太高了。于是开始了我的502排查之旅。
1.

1 ps aux |grep -c php

复制代码

结果为200

2 netstat -an |grep -c php

复制代码

结果一直在5以下,这说明php-cgi 的进程是绝对够用的。

2. 查看php-fpm.log

3 tail -f  /usr/local/php/logs/php-fpm.log

复制代码

无有价值信息

3. 查看nginx错误日志

4 tail -f /usr/local/nginx/logs/error.log

复制代码

无有价值信息

4. 感觉问题可能出在了nginx的配置上,于是网上找关于nginx.conf 的配置说明,改来改去始终解决不了这难缠的502。(该过程前后延续一周之多,改了N多个参数,因为没有价值,所以我不再详细记录,在这里简单一笔带过。)

5. 几天过后,突然灵机一动,nginx的错误日志既然不报错,那说明定义的日志级别没有达到要报错的要求,于是找资料修改nginx错误日志级别为error(默认为crit
请参考http://mylinux.5d6d.net/thread-1289-1-1.html
终于发现有价值的信息:
connect() to unix:/tmp/php-fpm.socket failed (11: Resource temporarily unavailable) while connecting to upstream
google了一番,马上就找到了解决问题的方法:

6. 修改php-fpm.conf

5 <value name="backlog">-1</value>

复制代码

改成:

6 <value name="backlog">1024</value>

复制代码

这是因为,php-fpm backlog 设置为 -1 的情况下,表示backlog数无限制,由操作系统决定,而操作系统是由内核参数net.core.somaxconn 决定,我的操作系统该参数的值设置的很大为262144。该参数的值默认为128,我想设置成262144肯定是不合理的。所以,我又试验了一下。

7. 不修改php-fpm.conf ,即backlog的值为-1, 然后把net.core.somaxconn修改为默认值128 ,此时也没有再出现502

总结,本次502事故的主要原因是内核参数配置不当引起的,至于这个backuplog 参数具体的含义以及应该配置多大合理,以后我会专门写一篇帖子来阐述。