算是一篇工作日记吧。

   21号,前天。

   本来不会有什么事的,但是犯了个超低级的错误,结果下班后全部门的同事加班到八九点钟。

   网络拓扑描述:

   一个很低级的错误,导致全网影响巨大。_而且

   因为旧墙的空间占用着,本来准备腾个位置出来给一台新设备的。

   **忘记标了,旧墙有两台!!!


   下午4点半。

   我是准备换下其中的一台。

   当然初始状态是两台旧墙与原来交换机相连的线还都在,只是没插进接口而已,而且还是接电运行中,而且,原来的配置也都在。。。

   我去断掉其中一台的电,它的两个端口上有网线,但没接实,我就放在另一台的相应接口上(另一台的接口上没有网线),正常的话我同样网线不插实,或者放在边上就OK了。但问题是。。。。我竟然鬼使神差地把两根网线给插进去了。。。。更悲催的是,我竟然没反应过来。。。。

   然后同事就跟进来跟我讲,网断了。我还在想,没动到其他的线呀。。。(要提一下的是,这里出口如果影响了,里面的IDC区,几栋大楼的无数企业上网,以及,最最重要的,边上区政府办公大楼所有人上网都会DOWN了。。。。)

   特别是在年关上,人家一个投诉,或者领导的一句话,我年终没了不说,来年还能不能继续干都是个未知数。。。

   

   过了一分钟,反应过来,赶紧跟去把线拔了。

   这期间,电话就一个一个地打进来。。。。。。

   然后十分钟后,上网的用户基本上没问题了。但是IDC区的服务器还有部分不通。

   

   故障现象简述:

   IDC区,同一个段的IP(ISP公网IP),有的正常(被影响时间很短),有的却始终访问不了,后来虽然加班一直在查这个问题,包括要求ISP运营商配合检查,但基本上是等那些IP自己恢复正常的。

   而且那些被影响的IP,也是几个几个的陆续恢复正常的,一直到晚上9点,最后几个IP才终于正常了。


   ****到现在也还不确定到底是什么原因导致的。但很有可能是旧墙对MAC表项的学习造成了误导,导致设备总是学不到原来正确的MAC。但是把所有设备的MAC表项和ARP表项全部清空无数次,也请运营商把网关设备的表项也清空了,依然没有起到效果。所以并不能确定具体的原因。

   

   这次是非常严厉的教训,以后一定要细心,特别是这种很有可能造成严重后果的环境下,更是需要做到细致严谨,有必要在实施前做一份详细的实施方案,尽可能的减小或避免问题。


   以此为戒。