电信机房1:192.168.0.8

电信机房2:192.168.19.5

电信机房3:221.100.19.10

背景:

1,电信机房1为刚申请1个月的电信节点,100M独享带宽,网络联通正常,还没有正式运营启用

2,电信机房2电信机房3都已经启用了1年以上时间,分别是10M独享和100M独享,网络和带宽均正常

问题发现:

1,在机房1的业务要正式上线,需要传输大文件(100M以上)到其他机房

2,通过SFTP传输数据的时候发现,外出流量严重异常,只有几十K的速度

3,基本操作,ssh等还是正常

网络部署:

3个机房网结构一样的

 

 

简易图

分析流程:

所有的测试均直接通过3个IDC机房的防火墙之间进行

1,测试机房1机房2之间的网络上传和下载速度情况

【机房1】---》【机房2】 【上传异常

【机房1】---》【机房2】 【下载正常】

2,测试机房1机房3之间的网络上传和下载速度情况

【机房1】---》【机房3】 【上传异常

【机房1】---》【机房3】 【下载正常】

3,测试机房2机房3之间的网络上传和下载速度情况

【机房2】---》【机房3】 【上传正常】

【机房2】---》【机房3】 【下载正常】

确定问题肯定出在新开通的机房1上面。

再次分析:

1,防火墙系统核查,无明显异常,重新启动后,故障依旧

2,机房1防火墙和机房内部其他服务器【上传】和【下载】速度全部正常,20M/s

测试相关截图:

1,机房1机房2之间测试

 

机房1-机房2上传

 

机房1-机房2下载

ping 和 tracert

和机房沟通:

1,将3个机房之间的所有测试结果发送给机房的工程师协助核查

2,第一次周五下班时间发现的问题,发送给过去让他们核查,无果

3,周二终于又有时间了,再次连续联系机房3次,核查分析原因。

4,几次交互沟通后,终于确认出来了问题所在

原因:

1,原因很简单,该机房建设时间较早,上层网络设备存在全双工和半双工问题,需要强制指定才可以。

2,机房将网络连接设置全双工后,网络立马恢复正常,机房1机房3之间速度跑满20M/s

事后回顾:

1,5年前该机房就出现过该问题,时间太长早忘记了

2,机房3同为电信,刚上线不到1年,无该问题发现,所以忽略了双工问题

3,遗漏点,实际上通过防火墙服务器的网卡状态,也可以直接查到问题,网卡状态显示为半双工状态

4,6年前网通机房里面也出现过这种双工的问题

总结:

随着网络设备的不断升级,已经很长时间没有发现这种网络协商半双工问题出现了,几乎已经被忽视了。在一些建设时间较早的机房里面,还是需要留意这类问题的存在的,特别是自己的防火墙是自行定制的情况下,更加容易发现此类问题。