县局DCN网络不通,请求技术援助。局方一时无法找到故障原因。在电话中询问了一些基本情况,同时取得远程登录地址和口令。登录到市局路由器4700、交换机2948和华为2403网络设备上面。收集信息如下:
1、县局报告到市局97服务器网段不通,甚至ping市局直连网关也丢包严重。这种现象一直都断断续续出现;
2、网络拓扑情况:市局4700路由器下挂三层交换机2948,县局、97服务器和局内网段都接在2948上面,2948则通过一台华为2403作为中继连接到宽带城域网设备华为5100,5100通过华为8850做vpls透传到各个县局二层交换机;
3、故障分析、排查:首先登录到4700路由器上不能连接,怀疑是4700路由器故障,要求市局派人重新启动后,察看日志和cpu内存利用率却无异常。再转登录到2948交换机上,在2948上面直接ping各个网段都没有问题,但存在单向ping这一故障现象,比较罕见。按照icmp协议原理,echo-request和reply都能成功,说明到县局链路双向三层没有问题。县局不能到达直连网关,可能有几种原因:网络链路双工、速率不匹配,主机装了防火墙,arp缓存溢出(病毒造成)或者安装了双网卡,但是经与县局值班人员联系排查,剔除了以上因素。登陆到市局2403交换机,发现到城域网5100的四条连接均为10M半双工,于是联系数据局派人在5100上面重新配置好100M全双工,在2403上新开了一个接口并配置一台主机与县局同在一个网段,与县局双向ping正常,说明2403到县局的二、三层连接也没有问题。
4、以上现象表明,县局无法与市局通信与到2948的连接有关系。目前四个县汇聚到华为2403中继到2948上面只开通了一个100Mtrunk口,然后做vlan间路由,正常情况下该连接并没有问题,但是一旦其中任意一个县受到蠕虫攻击,加之2948的三层路由处理能力有限,迅速上升的流量可能将100M连接拥塞,从而影响到其他县局;
5、故障处理:经与县局网络维护人员协商,我们将2948到四个县局分成四条100M连接,请市局派人配合连线,经远程重新配置参数,在2948上show interface可见到县局各个端口流量逐步上升。网络也恢复正常。
处理时间:4月16日下午1时受理, 至4月17日中午12时完全恢复,整个过程历时23小时,其中包括电话联系时间、联系不上等待时间、处理故障、排查时间,具体处理故障、排查时间总共约为3小时。由于在休息日,影响应比工作日小。
从这次故障分析来看,考虑到未来蠕虫对DCN网络攻击的影响,各地市关键网络设备链路带宽一定要给予保证,局域网主机要注意查杀病毒。这次我们发现,DCN网络经过城域网进行vpls透传设备5100的100M电口与思科的交换机端口链路适配存在问题。另外,如果5100到县局的交换机存在10M半双工连接建议将县局交换机全部更换成100M全双工上行。