双十一刚过的第二天正午,一切看似风清云淡的早晨,心想今天中午可以准时去午餐,突然群里有客服同事发了一条某某站点无法打开,需处理的信息。

一次IDC中心机房交换机端口DOWN机故障解析过程

突然有种不详预感,复制网址访问,卡了老半天,站点标题先是若隐若现,最后访问还是彻底失败,于是远程服务器,尝试几次连接无果,还以为是自己网络原因(有时远程服务器时网络突然异常会导致再次远程时会话失败),于是尝试访问该服务器上其它站点情况,也无法打开,通过虚拟主机平台远程重启服务器失败,虚拟主机平台检测此服务器失败。
于是电话IDC电信机房,让其帮忙重启下服务器(因为此服务器上部分客户站点程序存在BUG问题,偶尔出现资源无法释放导致服务器DOWN机的情况),过了十分钟发现依然无法远程联接服务器,于是再次电话IDC机房让其为该服务器接上显示查看目前服务器启动状态,机房回复系统启动正常,网络状态亦是正常。我之前PING了下机房网关也是正常的,于是觉得奇怪了,没动过网线头,重启系统正常,不应存在无法联网的情况。
于是看了下监控发现监控显示有好几台状态为DOWN状态。
一次IDC中心机房交换机端口DOWN机故障解析过程
什么情况监控显示全部变为了红色,再试下远程这些服务器,均无法联接,看了下联不上的服务器在同一个机柜,初步排查出是整个机柜网络存在问题,为了验证,我让客服帮忙试了一下几台服务器上的站点,最终坐实是IDC机房的这个柜网络均存在异常。再次电话IDC机房看下是不是机房网络问题,机房回复是机房网络目前正常,答应再帮忙看看。再等了一会网络仍未恢复,等下去不是个事,又一次电话IDC机房,这时感觉机房换人了,应该是正午交接班了,不过声音感觉好像是个平时机房比较熟悉的技术,答应帮忙排查下(这次我直接给机房技术讲,让其排查下上层结点,肯定是整个柜的网络问题),又过了几分钟机房电话过来回复是机房交换机端口down掉了,正在处理,让稍等一会,顿时我无力吐槽之前机房技术的反馈了。本次事故造成整柜服务器掉线近1个小时。
一次IDC中心机房交换机端口DOWN机故障解析过程
一次IDC中心机房交换机端口DOWN机故障解析过程

小结:通过此次故障,让我们再次熟悉了一次IDC机房故障受理。如何做到快速且精准排除分析故障点,虽然IDC机房是7*24小时支持,但不是24小时都盯着其网络监控与设备状态,多数都是有大量反馈的情况才会进行关注与查看,因此我们要随时掌握主动权,快速分析找出故障点,让机房尽快协助处理。当然有时这其中也有痛点,远水救不了近火,这就是托管和云服务的一大弊端吧,当出现大面积故障和服务中断时,对于我们身在远方的技术来讲只能等待着远方机房技术的处理与回复,因此务必做好平时的检测工作和检查非常必要,另外快速锁定和精准定位非常重要,这就考验我们技术自身的经验与综合水平。