这是一个实际的案例,为国内某大IT公司提供支持的实录。/n

<script type="text/javascript"> if (window.showTocToggle) { var tocShowText = "显示"; var tocHideText = "隐藏"; showTocToggle(); } </script>

问题

昨天晚上一位哥们打电话找我,说他们数据库总是访问不了。这个现象已经一天了,几个人还没有找到原因和解决的办法。以致不得不反反复复的重启MySQL数据库。/n 但是重启的效果并不明显,重启10几分钟后问题依然出现。导致前端用户难以正常访问网站。/n另外他们还通过google,百度搜索,怀疑是数据库连接设置太少。设定加大并发连接,无效。flush host,无效。经过详细了解情况后,得出如下信息:


一、系统正常; 二、MySQL本身服务正常(可以在本地用phpmyadmin操作,速度很快); 三、另外一台服务器的WEB端访问MySQL很慢,甚至无法访问; 四、网络拓扑:WEB、数据库分离,并且在不同机房;/n



排查

根据他反映的情况,开始就怀疑与防火墙有关。因为这个问题,我遇到过,有切身体会。/n但是我仍然按照常规步骤,逐一排查故障。这里可以排除网络缘故,网络方面的可能性已经排除。/n另外,由于涉及数据私隐,这里仅仅描述排查步骤及排查命令,不提供具体数据和命令执行结果。/n

  • 检查磁盘空间 # df -h
  • 查看进程状况

# pstree



  • 查看网络连接

# netstat -an



  • 查看系统日志

# tail -f /var/log/messages



  • 查看MySQL日志

# cat xxx.err |less


  • 查看系统设置

# ulimit # cat /proc/sys/net/ipv4/ip_local_port_range # cat /proc/sys/net/ipv4/ip_conntrack_max


经过这几个步骤的检查下来,大致可以确定问题所在。因为前面的排查,并没有发现异常的地方。而系统设置确是RedHat AS 4的默认值。而这些默认值,对于比较大的服务来说,是不能满足的。因此,再结合问题的症状,可以断定问题就在于系统设置上。/n



处理

经过上面的排查后,已经断定为系统设置上的问题。因此通过修改这三个设置,来观测效果。/n


# ulimit -HSn 65535 # echo 10000 65000 > /proc/sys/net/ipv4/ip_local_port_range # echo '81920000' > /proc/sys/net/ipv4/ip_conntrack_max


这些设置,已经在很多生产环境里应用,因此可以放心使用。/n



解决

应用了上面的三个设置后,经过一个多小时,问题不再出现。由此更可以断定,问题就是系统默认设置导致问题。/n为了使得下次重启服务器后,这些设置仍然有效。通过修改 /etc/rc.local 来实现。/n


# vi /etc/rc.local #增加如下三行代码 ulimit -HSn 65535 echo 10000 65000 > /proc/sys/net/ipv4/ip_local_port_range echo '81920000' > /proc/sys/net/ipv4/ip_conntrack_max


在第二天,再联系这位哥们了解情况。问题已经彻底解决,运行了一天多,没有再出现问题。/n