网络在如今的生活中起到了无可替代的作用,比如网上购物,网上股票交易,网上商店,网络电话......等等。总之网络给人类带来了便捷!但是网络的故障却时时给人带来不快!快速的解决网络故障是我们网络管理者的首要任务,也是我们的职责!
    随着经济的快速增长,一家一端口一台电脑的设计方案,也远远不够部分炒股者的需求,作为学校的03年的网络设计方案的不足也慢慢浮现出水面。网络故障也不可预知的频频发生!
    一些用户因为端口的不足,往往选择自己加设备。谁加了他们也不上报,这样给我们的管理带来许多不便!网络故障也层出不穷。教学区固定ip,不选择mac地址绑定,但在用户申请ip的时候至少有其mac地址的记录,发现某用户流量过高还可以打电话警告,但是部分用户不服从该制度,不登记。挺聪明得,看看隔壁办公室的ip配置,在该ip附近随便找一个用,这样就出现了,ip滥用现象,ip冲突现象时有发生;家属区dhcp,又没有很好的管理方案!许多网管软件也派不上用场。对dhcp用户来说:比如某用户中毒,向设备狂发包,影响网络设备性能,造成网络出口速率低,部分用户上网慢,网络有严重丢包现象,我们也没有什么高级的网络测试工具。只有带个笔记本,一根跳线在接入层的设备配线间内,时时ping网关,拔线,寻找狂发包用户。无疑这样的工作我们管理员很累!
  也就是在11月初,一个特殊的网络问题出现了,估计大家也应该没出现过的,真的是莫不着头脑了.我们大领导出差,办公室除了我们4个网络管理员,一个技术主管,他掌管我们机房所有的服务器,路由器,核心交换机.还有一个接故障电话的女孩.近来1,2,3,4,5号家属院分别有用户反映,近来网络特慢,时通时不通.我们也没留意!都是强调他们查毒,杀毒.可是没过多久,这几栋楼都上不了网了.有用户电话反映获取IP地址是169.92.2.115,我们院里正确的DHCP获取的IP地址是100.100.X.X.根据我以前的经验总结很可能是的网络光链路故障,具体看连接[url]http://joysuny.blog.51cto.com/97261/35912[/url].我们就去看主机房到汇聚交换及接入层交换光路,一切正常.将主交换设备重起还是无济于事,到接入层设备机房查看,设备状态正常.笔记本接到consol口,查看交换配置一切正常,接入普通端口获取ip地址还是169.X.X.X.将交换机重新启动,马上获取ip地址,突然获取正常,但是不能浏览网页.将网卡禁用启用,又获取的是那个169.X.X.X.
    起初断定可能是上层主机房问题,回去检查核心交换,一切都是原来的配置,一切正常,没办法,去研究已前的网络拓扑和一手的网络配置信息资料.有一个不小的发现,故障所在区的1#,2#,3#,4#.5#,这5栋楼属于同一个Vlan125.当时我们几个人一起坐在会议室研究解决方案.一直到晚上9:00.最后决定将尝试的将Vlan125改划分到Vlan126上,主负责有我的一个同事处理.第二天常识的改了vlan后当时是好了,我不时有个疑问,我问领导为什么Vlan125不行呢?以前Vlan125不是也可以的呀!而且是正常了好多年的呀!我领导也说不上来什么!他就带我去了汇聚交换机房,核心交换机房查看Vlan125的信息.分析故障原因.设备配置Vlan125一切正常.正当我和领导思索,其他人狂欢的时候,电话响了.用户反映故障又出现了,我们百思不得其解.我们冷静的想想,换Vlan后可以了一会.说明问题是在用户端!可能有用户中毒或者架接了DHCP服务.最后决议将这5栋楼分割开来,转接到不同的Vlan内.
  我于是带了本子,网络设备远程控制密码,来到汇聚机房,汇聚交换也是LS-3026FM.我的处理办法是:汇聚交换LS-3026FM配置不变,将它的下边连接的设备通过LS-3026FM远程控制访问,更改下层交换设备配置信息.我起先定了所需的配置规则:1#划到vlan120;2#划到vlan121;3#划到vlan122;4#划到vlan123;5#划到vlan124.在汇聚机房找一台网络设备也同样更改,将它的更改和我远程控制楼号的更改相一致.这样我可以不用下楼到其他楼层看效果.直接拿跟跳线连接到这个设备上,查看获取到的ip地址,尝试上网,测试网络连通性.直接在汇聚机房找到有问题的楼.这个方法不错,当我调试到第3号楼的时候,测试获取的ip地址是169.X.X.X,问题就出在这个楼上,但是我还是耐着性子继续更改其它楼的配置.测试完后,其它楼都正常,我欣喜万千,一想这样找到了,主要对3号楼单独处理,就用我们以前最原始的隔离用户的方法处理.于是我就远程将所更改的设备配置恢复(因为是测试,我就没有保存我当时更改的配置信息,重起交换机配置自动恢复,我就远程重起.这样和耗时间,每远程重起一设备都需要3~5分钟.我没有那么好的性子,要想想如果远程控制重起设备.设备的数量有18个之多!于是就想起到个单元楼道,将楼道电源断掉再打开就可以实现设备重起了.
  就那样做过之后,这5栋楼的Vlan又回到了Vlan125.(我当时的想法是,既然已经确定了3#楼有问题,我直接用用户隔离法,将用户一个一个隔离,知道找到有问题用户!)但是出人意料的事又发生了.当我恢复其他楼的配置之后,来到3#将笔记本接到交换机普通端口上,测试获得ip地址还是169.X.X.X,无奈之下将所有的接入用户拔掉.只留一个我自己笔记本那个端口,将设备重起,问题依旧!进入交换机控制端,查看配置,设备不停的警告2fun shutdown 交换机上第二个风扇坏了!个人感觉应该与这个警告没关系.即使是它的原因也不至于影响其他4栋楼的网络.我有些恼火了,既然是这栋楼的问题,就先将它断掉,随即我就断掉了3#楼的交换机电源.其他楼网络应该没问题!到了晚上,我电话回访用户,他们反映说是下午好了时间不长,问题又出现了!
  晚上我躺在床上一直在想,这个问题应该与设备本身的性能有关,该类型的网络设备有华为S2403,E026.可以说在市场上都看不到的设备,设备陈旧,设备性能下降,是一个原因;最主要的问题可以追究到存放设备的环境中,我们都知道,灰尘是网络设备的无形杀手!我们的接入层设备都是壁挂于单元楼顶阳台内的铁箱子.设备都是立放的!久而久之灰尘就弥漫了整个箱子.我们没次排除故障都不关清理里边的灰尘!再就是有用户私设DHCP服务!同事们都灰心了,说这问题没办法处理!我不管那么多,申请自己去尝试下!第二天我争的领导同意,将我以前所做的配置保存到网络设备中.一大早我就去了故障地点.还是按以前的操作更改设备所在的Vlan,改好后保存退出!我更改一个办公室就打电话报信说1#故障消失.......当听到这话我不知道有多高兴!继续更改,当到3#时网络是通了,只有一个用户反映它那不行.尾巴终于露出来了!我按办公室给我的电话找到那个用户,进去后查看他们的布局使我大吃一惊.它是三室一厅,每个房间一台台式机,还有好几台笔记本.无语真是有钱人!查看它家布局,门外网络端口引进,接入一6口路由器,通过路由接入一台式机.
查看网络,一切正常,不能浏览网页.Ping网关也正常,起初以为是浏览器问题,不过带我笔记本后故障依旧!随后断掉他们的路由,直接接到笔记本,一切正常.问题就在这个路由器上!就是因为它造成一大片网络故障;就是因为它折磨的我吃不饱,睡不好!至今那样的问题再也没出现过!哎,问题算是解决了.但是还是有点模糊!
  估计大家对这个处理问题过程不感兴趣,但是那种将大网络划分为小网络处理的方法值得大家学习! 
                        出处:joysuny
                                                  2007年11月20日