很久没有写日志之类的文章了,来了51cto论坛这么久,从前辈里也学习了不少东西。很多实际工作中遇到的问题和处理的过程,也有必要相互学习交流,取长补短。趁现在有这个时间和机会,分享一例几天前在公司发生的一起奇怪的网络问题。


  在这里简单交代一下背景,本人在某品牌4s店负责IT工作(入职一个多月),由于某些原因,也兼顾了另外一家4s店的IT维护(其实两家店都属于同一个集团,这里把前者称为A店,后者称为B店)。本人工作地点在A店,但B店设备年代相对久远,两家店加起来工作量其实也不少(主要是IT管的东西实在太多了)。


  中午快吃饭的时候,接到通知给B店某针式打印机换个色带架(看到发来的图片是一个拆碎了的色带架,不禁为它默哀),就在快下班的时候找到一个同型号的色带架,换上新的色带,在A店找台打印机测试没有问题,就打算过去吃饭的时候换上色带架再吃饭(A店饭堂还没建好,员工都在B店饭堂用餐)。


  就在装色带架的时候,旁边的靓女突然说上不了网,接着收到各种通知说上不了网,我当时就奇了个怪,我在装色带,碰都没碰过网络相关的东西,怎么突然一下子都说断网?这个时候,一般都是网管们比较头痛的时候,因为大面积的断网是比较麻烦而且紧急的,一来会影响公司的正常业务,二来各种人都会在催什么时候搞定,能不能搞好什么的。好了,不扯闲话,说下处理过程。


  首先,必须要确定究竟哪多少台电脑断网,是全部断网还是局部断网。经过了解约有6、7个地方上不了网,由于同一时间同时断开网络,且这几个地点都不在同一个地方,有一楼的也有二楼的,于是检查了旁边几台连不上的电脑,物理连接上没什么异样(说白了就是看看是否接上各种莫名其妙的交换机),ping一下网关,发现ping不通。这时基本上锁定了是物理连接的故障,大概率是交换机的问题。但是此时也有疑问,如果交换机端口出问题,不会同时几个端口都坏了,如果是交换机整体故障,为何24口的交换机单单几台电脑断网了(不会那么巧其他10多台电脑都关机了吧)。


  带着疑问,拿钥匙打开了IT房的门,期间一直沉思。这里简单描述一下机房情况,由于是厂家负责建设,之前交接的IT也不清楚具体设备的配置和网线的走向,也没有权限去配置,就说以前就是这样。一个机柜放了一个路由和3个24×××换机(牌子就不说了,这个和主题没关),B店网点约100个左右,有些使用不上暂时不接入交换机,3个交换机24口均接入网线,经了解基本都会开机使用。另外由于机房已经有好几个年头了,网线和网络结构相对凌乱,最头痛的问题是机柜旁边放了一堆厚约30公分左右的网线,里面还有各种光猫、小型路由和小型交换机等设备(B店共3条光纤输入,一条作办公网络,一条作员工wifi,另一条为客户wifi)。之前的IT也确定里面没有网口,只不过线不够长接在地上,基本上都是wifi的线,与公司主要网络没关。


  检查了一下几个24口的交换机工作情况,发现状态正常,这时在想是不是交换机过热(空调经常跳闸)或者cpu内存占用过高,决定重启一下3台交换机,试下能否解决问题。由于线路确实复杂,根本找不到电源插头,只能简单粗暴的拔出电源线重启,3台交换机重启后故障依旧。


  经过简单重启交换机无法处理后,就必须用比较笨的办法,就是找出断网网点到机房的网线,这时可能有人会说,这不简单吗都会有标签的,不过有耐心看的人肯定猜得出来这些线基本上都没有标签的,仅有的那些标签也不一定是对的。当然,查线不是每条都要查,这里优先找的是交换机上没亮灯的线。在一个断网点接上测线器,就到机房去逐个测试灭灯的网线,虽然灭灯的线不多,但是也有将近20个,奇怪竟然找不到(期间由于收银一直在催搞好没有,客人急着要打发票,就临时接了条长网线,让她们接上着正常的网点,先解决客人的问题)!这是我在想,如果这些线在这几个灭灯的端口里,不可能8芯都不通的,除非被完全切断?在确定B店内部没有重大施工和破坏的情况下,我再找了另外一个网点继续寻线,结果一样找不到那根线。这时我能确定的是这两个点的网线不在这3台交换机里,我把目光转移到地上乱线堆里的几个8×××换机上,由于网线非常乱,基本找不到这些交换机的网线通往哪处,感觉有些像连接入机柜的3个交换机上,有些是直接通向机房外面。抱着侥幸的心理,把那些交换机重启了遍,几分钟后,有同事说能上网了,这时我如梦初醒,仔细检查,发现其中一个接了6口的交换机,当中一根线连入了一个24口的交换机上,兄弟,找你找得可辛苦了。


  既然问题解决了,我就想可能是这个小交换机负荷过重,重启后应该能正常运行一段时间吧。但是疑问依然存在,根据反映共7个点上不了网,但是这个交换机只连了5个口,按道理说这个交换机有问题也只会有5个点上不了网,且断网的7个点在机房外面不存在其它交换机物理连接的可能,带着这个疑问,虽然暂时解决了故障,但无法释怀。


  看到大家能上网后,就着手处理一些没弄好的小问题,结果没过多长时间,又报告说无法上网,而且还是刚才那几台电脑。于是回到机房,仔细检查那个接了6条线的交换机,连接到24×××换机端口上的指示灯正常,再把这个8×××换机与24×××换机相连的网线拆下来,用测线仪测试发现8芯都通。这时我基本可以确定是那个8×××换机的问题了,由于没有多余的交换机作备用,于是不假思索地让行政部同事去申购一个交换机,就在她离开办公室的瞬间,我脑里突然一想,还不一定是那个交换机的问题。


  我说,先等一下,我再确定一下是不是那个交换机的问题。于是再回到机房,在那个交换机(交换机A)旁边拆下另外一个8×××换机(交换机B),连上刚才的那根级联网线,再接入那5根故障网点网线。这里大家应该知道,如果是交换机A有问题,此时理论上那些电脑能上网的,反之,如果依然无法上网,那就和交换机A无关。在我叫停申购返回机房的瞬间,我就大概想到不是那个交换机的问题,结果也如我所料,换了交换机B问题依旧,如果非要说交换机B也有问题,这显然不是一个负责任的IT所为。


  如果看到这里能准确找到故障原因的,应该说得上半只脚踏进了IT这个门了。其实到现在,已经离真相不远了。我当时目光已经锁定在那根连接交换机A和24×××换机的网线上,我又把那根网线拆下来,仔细检查了一下,那根线特别硬,在机房我找不到比那根线更硬的网线,连稍微弯曲都得费点劲,我重新用测线仪测试那根网线,8芯都是通的,于是我把那根线拉了一下又弯了一下,重新测试,发现第六根线(绿色线)断路。此刻,我终于找到了答案:那根线由于质地过硬(铜芯过粗),水晶头金属刀片不易压入,稍微扭动就会导致压片与铜芯失去接触,由于接触不良导致时断时续,因此就会出现上述所有问题。


  于是,换了条之前接好的一条普通网线,替换那条出现问题的级联线,随即又听到能上网的回复了。

那天到那刻为止,我才舒了口气。这时,不由感叹,做IT运维的,除了一点略懂皮毛的技术外,还需要那么一点的细致和运气。啰嗦了半天,总算把故事说完了,对能看到这里的读者,也表示非常感谢。