作者:田逸(sery@163.com) 《网管员世界》2006年7期

两个idc机房托管的服务器之间通讯不畅,经查,两个机房间的丢包率在8%左右。这样的丢包率很容易引起tcp连接失败,由于网络在线业务异常重要,不得有片刻的停机时间。刻不容缓,马上处理。

一、先判断丢包发生在那里。从办公室的计算机分别ping 两个机房的服务器、然后是网关,通过观察输出进行比较,发现问题在望京机房。在用路由跟踪的方式测试,结论也是一样。

二、去现场排查。检查网段类服务器之间,服务器与交换机之间,以及交换机之间的网络通讯情况,发ping 包,没有丢包,但从网内ping 外部任何地址,都有丢包现象出现,路由跟踪有时不成功。这些情况可以表明网段内的通讯是完全正常的。接下来要做的事情就是测试网关的状态。网关是一个cisco 6509交换机,是网通自己管理,我方的交换机通过一条双绞线与cisco 6509相连,它是所有服务器的外联接口。通过技术手段,已经知道上联交换机的上联端口是fa0/41。
1、从网段内的某些服务器ping网关,发现丢包。
2、从外网的某台计算机ping 这个网关,没有丢包发生。
3、从外网的某些计算机执行到这个网关的路由跟踪,情况正常。
4、用外网远程的交换机ping 小包,情况正常。
5、从网段内的交换机ping 小包,发现丢包。
有上面的测试结果可以得出结论:是我方的交换机与网通交换机(我方服务器的网关)间的链路有故障。由于我们的网络服务不能中断,网通机房的人建议晚间访问量少的时候重新做一条线或重压网线两端的水晶头。前几天我方为扩容在机架上施工,因此有可能把线缆碰了。已经是中午了,肚子尽管饿了,但还是有点不甘心,再捣鼓一下看能不能找出点什么来。于是我搬来***,爬上去看接近天花板的交换机的指示灯状态。居然有一个端口指示灯黄绿交替一闪一闪的,仔细一看,是某个交换机的41号端口,而且网线上标明这条线是整个网段的上联线,即与网关相连的那条线,和先前测试出来的端口是一致的。可能问题就是在这个交换机上了,赶快连上c # show int f0/41 查看41号端口的输出,嘿嘿!居然变成半双工了,再查看其他一些端口的双工情况,均是自适应,再去问idc 机房的人,确认网关哪个连接端口的双工配置,网关的端口为全双工。好,马上进入配置模式,# c t , int f0/41 ,# duplex full 就把交换机的41号端口设置成全双工了,马上生效,保存配置;然后再爬***看41号端口指示灯的状态,变成绿色,这基本表明故障已经排除了。现在,开始从内外来测试丢包的情况了,经测试一切恢复正常。

原因分析:端口速率不匹配是引起丢包的最直接的原因。而引起端口速率变成半双工的原因可能是网络闪断引起的,比如网关那端的端口速率变化,而我方交换机的端口是自适应的,因此在协商后就变成半双工了。


2006-1-19