一、现象描述

开发那边反应有一台机器挂了(ping、ssh都不行),我通过远程管理口看到这台机器b并没有挂,我登录进去,ping任何IP都ping不通,系统日志也没有报错,最后我重启了网卡,机器恢复正常。

二、原因分析

 

服务器使用的开源的CentOS操作系统对网卡存在兼容性问题,现场使用的操作系统内核是:

Linux version 2.6.18-164.el5

 

CentOS是RedHatOS的免费编译版本,和RedHatOS基本相同。经过RedHat和网卡厂商的多次确认,RedHat OS在对Broadcom 5709网卡的驱动bnx2支持上存在一个兼容性bug----在某种特殊场合当业务数据流量过大时(即网口负荷过大时),小概率会导致网卡不通导致业务中断,可以参见RedHat对于该问题的描述:

CentOS与Broadcom 5709兼容性问题导致业务网络中断_centos

 

通过该图片描述可以看到,在kernel-2.6.18-194.3.1.el 版本以下的Redhat以及CentOS 操作系统,使用Broadcom 5709网卡芯片的服务器上都会存在此问题。

MSIMessage Signalled Interrupts)是一种PCI设备使用的中断机制,多用于网卡且不适用多核;MSI-XMSI的提升版,开启网卡驱动的MSI-X功能可以提升网络性能,但是会对OS增加负荷,OS若是无法适应网卡运行状况,无法处理数据(尤其是异常大的流量),就会出现异常状况,关闭MSI-X功能之后网卡会以网卡的普通性能工作,就不会使OS负荷过重,从而避免发生异常

 

三、故障解决

 

禁用  Broadcom 5709网卡驱动bnx2MSI功能(操作步骤如下)。

1)登录服务器操作系统打开终端,输入“vi /etc/modprobe.conf”进入文本编辑模式。

2)在文本结尾处添加一行“options bnx2 disable_msi=1”(如下图所示),保存退出并重启系统。

CentOS与Broadcom 5709兼容性问题导致业务网络中断_CentOS与Broadcom 5709_02

 

3)系统重启后在终端输入“grep –i eth /proc/interrupts”,通过返回结果查看MSI是否已被禁掉(MSI禁用后将不会显示PCI-MSI-X的字样),如图所示。

CentOS与Broadcom 5709兼容性问题导致业务网络中断_CentOS与Broadcom 5709_03

未禁用MSI

CentOS与Broadcom 5709兼容性问题导致业务网络中断_CentOS与Broadcom 5709_04

已禁用MSI