背景信息

一次例行的流量监控抓包,让我在wireshark的专家信息中看到了很多Duplicate IP Address configured (IP XXXXX) ,这个信息出现的机器很有规律。机器基本都是一些R710的老机器,然后都是2008 r2 的系统,而且都是使用BroadCom Advanced control suite 做了Team,Team的模式是(smart,LiveLink 没有启用)

实际症状

  • wireshark 中的arp 包,可以看出是一个team 中的多个网卡,都是声明自己的MAC地址对应群集IP,而且这个ARP包的时间间隔很小。

duplicated ip address detected

  • Broadcom 网卡team 软件()

    BACS Configure

  • 使用R710的机器但是使用windows server 2012 的系统内置的Team功能的机器没有表现出该症状。

Try to fix

大概可以确定应当是软件的BUG,所以我们找找看有没有人有类似的症状,或者已经有解决办法。

  • 我找到了下面相关的文章和链接,官方指示是Broadcom网卡team版本较旧,更新到特定版本以后就OK了。

  • 虽然Broadcom 被收购后,官方网站的驱动非常难找,但是我在dell的驱动页面找到了对应的网卡的新驱动和应用。
    Dell Drivers

  • 更新了Qlogic Network Adapter windows 64 bit drivers 以及firmware,中间可能导致网络断开,或者群集IP丢失,反正周折了后,感觉问题要解决了,结果更新后重新抓包,问题依旧

    更新后的网卡team 管理软件。
    Qlogic Team manager

验证后发现未解决问题

  • 我在多个服务器上更新了网卡固件还有Team软件后,重启进行了验证,抓包工具使用的是windows 自带的netsh trace 命令,由于机器大部分都是windows server 2008 r2,所以我用下面命令来抓包netsh trace start capture=yes tracefile=c:\computername.etl 等待一段时间后,用netsh trace stop 来停止抓取。etl的文件可以使用windows message analyzer 来转成cap包,然后使用wireshark 来进行分析。

  • 可以证明的解决办法是,如果你有两个网卡,仍然使用smart 模式,可以设置其中一个网卡为备用模式。不要都是Active。

  • 问题提交给DELL后,dell回复说服务器已过保。。。也确实,按照KB照做升级都没有解决,也只能拿过保的问题来推脱BUG了,好在知道问题出在哪里,大不了升级下OS使用内置Team或者改成还用这个team软件,但是Team模式改成主备模式。超过2张网卡的Active,active模式估计也没法做到吞吐量翻倍,因为OS自带的Team模式也最多也只能单向的双倍。