问题描述

 

考虑到在山东移动机房租赁的物理服务器的存在单点,并时不时出现故障,导致业务停止,因此决定从物理服务器把某个老牌论坛迁移到可用性极高的proxmox超融合私有云平台。昨天夜里,兄弟们忙乎了一整夜,很是辛苦(我在11点对那些坏掉的文件系统进行修复,用screen仍在那里,自己睡觉去了)。

 

上午睡了个懒觉,还没清醒过来,有电话、qq消息过来了,说论坛页面能打开,详情页也没问题,但不能签到、发帖、发附件等。

paicuo01.jpg

催得厉害,赶紧进行处理。

 

运行环境

 

主要包括负载均衡及超融合私有云proxmox。负载均衡负责用户转发,使用的是公网ip;超融合私有云proxmox使用的是四个节点的物理服务器,运行30几个虚拟机。

paicuo02.jpg

域名解析到负载均衡的vip,haproxy负责把请求转发到proxmox上的指定的虚拟机。由于论坛容量不是很大(400G左右),就直接把论坛程序、附件及数据库部署在同一个虚拟机上(其它的应用,程序与数据库是分离的)。

 

基本思路

 

超融合私有云平台proxmox上的其它虚拟机及应用都是正常状态,因此可以排除底层架构的问题。

 

另外两个大的排查点就是负载均衡及论坛虚拟机本身。其他兄弟怀疑是负载均衡配置的问题,还发来了相关操作信息。

paicuo03.jpg

我一直强调,一定要先从后端真实提供服务的系统进行排查,真实服务提供者有问题,排查负载均衡有什么用处呢?

 

问题定位

 

登录系统,查看论坛的配置,主要是nginx及php。论坛页面可以打开,可以初步断定php没什么问题。

 

接下来,打开nginx配置看看,主配置文件有如下几行包含项:

include vhosts/default.conf;
include vhosts/bbs.formyz.net.conf;
include vhosts/file.formyz.net.conf;
include vhosts/net.formyz.net.conf;

include vhosts/default.conf;

include vhosts/bbs.formyz.net.conf;

include vhosts/file.formyz.net.conf;

include vhosts/net.formyz.net.conf;

对nginx进行语法检查,未发现异常。老办法,查nginx错误日志,很快有如下发现:

FastCGI sent in stderr: "Primary script unknown" while reading   response header from upstream

FastCGI sent in stderr: "Primary script unknown" while reading   response header from upstream

 

心中有底了,一定是哪个包含文件配置上有问题。分别对这三个配置文件进行备份,然后挨个打开,发先有两个配置文件里,嵌套了包含项如下:

root      /data/html/bbs.formyz.net;
               fastcgi_pass  127.0.0.1:9000;
               fastcgi_index index.php;
               include   fastcgi.conf;

root      /data/html/bbs.formyz.net;

               fastcgi_pass  127.0.0.1:9000;

               fastcgi_index index.php;

               include   fastcgi.conf;

而另外一个配置文件里,嵌套的项确是这样的:

root      /data/html/bbs.formyz.net;
               fastcgi_pass  127.0.0.1:9000;
               fastcgi_index index.php;
               include   fastcgi_params;

root      /data/html/bbs.formyz.net;

               fastcgi_pass  127.0.0.1:9000;

               fastcgi_index index.php;

               include   fastcgi_params;

 

再比较文件fastcgi.conf与文件fastcgi_params,不同之处如下:

Fastcgi.conf

fastcgi_params

fastcgi_param  SCRIPT_FILENAME    $document_root$fastcgi_script_name;

fastcgi_param  SCRIPT_NAME        $fastcgi_script_name;

 

把不一致的嵌套包含,都改成include fastcgi.conf,重启nginx。绑定服务器的主机名及ip到本地的hosts文件,浏览器访问论坛,测试签到、发帖等,一切恢复正常!