L同学又一次把socket连接往错误的端口上连了。

搬完办公室,D同学说端口有点乱,一台开发机上3个游戏,端口范围不规范,于是就定了下各个游戏的端口区间,负载其中一款游戏的L同学就开始修改端口了。修改完端口后游戏进不去了。

表现为:

  1. 前端一连接就报错
  2. 后端接受到了请求并处理了请求
  3. 我在输出处打了下log,输出的数据是对的
  4. nginx的error log如下:
  5. recv() failed (104: Connection reset by peer) while reading response header from upstream
  6. 当时没有去看php-fpm的log,其实应该先去检查下php-fpm的错误log,后来想起后去看了下,发现php worker进程频繁地挂掉。

解决办法:

  1. 修改php-fpm配置,只起一个worker进程
  2. kill -USR2 php-fpm_master_pid 重启php-fpm
  3. strace -p only_php_worker_pid

然后发现php worker进程在connect某个端口后就挂掉了,一问L同学这个端口是干嘛的,然后他恍然大悟。原因是没有对redis的pconnect的返回值做判断,然后直接lpush,导致php worker进程直接core掉。

想起墨菲定律:Anything that can  go wrong will go wrong.作为一名技术人员,应该时刻谨记这条定律,不要有侥幸心理。