前几天我这里出现一个故障,某个旗县交换机的上行口的入流量连续几天都达到满容,导致该交换机下挂用户无法正常上网,现在我将故障处理经过写一下,供大家参考。
一、组网描述及故障现象
1、组网描述:
我公司城域网从核心层到该旗县的组网路径如下:
核心路由器cisco7609千兆下联中兴的三层交换机zxr10-8912,中兴的三层交换机百兆下联旗县的华为9306交换机,9306下挂一台华为DSLAMma5300和几台华为的33282326交换机,用户700户左右。
2、故障现象
该交换机原来日常流量在50-60M间,晚上忙时峰值流量达到80M,从74开始9306的上行的入流量就开始逐渐增大,白天的流量猛增,到了76全天的入流量从9:0022:00都达到100M,用户普遍反映打开网页慢,ping网关丢包严重。
二、故障处理经过
接到故障申告后我们首先对该出口的流量进行了分析,9306下挂的5300的出流量只有50M左右,且流量较平稳,几台33282326的流量合计只有10M不到,这样一来9306的入流量和向下的流出的流量就存在将近40M的差距,这部分流量被9306交换机直接丢弃了,现在的问题就是这部分流量是从哪里来的。
为了判断这个,我们首先将交换机下挂的设备逐个断开,但是没有任何变化,因此怀疑交换机存在问题,将5300提到了9306前面,9306挂在5300上,但是流量仍然没有变化。
在咨询华为厂家后,厂家建议抓包,确定入流量的来源,由于该旗县距离我们较远,来回时间太长,为此我们从8912上对端口进行了端口镜像,并在镜像端口上进行抓包,从抓包情况看没有发现异常的数据包。
鉴于此,我们将8912上对应端口的所有vlan数据全部删除,发现流量也随之下降到0,可以确定流量是由于保康的某个用户引起的,然后我们将vlan逐步加入,随着vlan的加入,观察上线的mac地址数量和端口流量的变化,发现在将vlan400495加入时流量有突增,且持续上升,这时候查看端口的mac地址数量并没有该段的用户上线,将这部分vlan取出后流量又下降回正常值,将其他vlan加入后没有出现流量异常的情况,之后我们将这部分vlan10个一段的加入,但是直到加完仍没有出现异常,一直到第二天一切正常。
三、原因分析
通过故障处理,基本判断为旗县当地有用户可能是中毒或中***,也可能有人恶意***某用户,只要该用户上线则从他网出现***该机器的流量,而之后之所以流量正常,一种可能是该用户由于一直上网不好下线了,一种是该用户发现本机存在问题,自己处理了,外网缺少***源,自动停止***。
通过此次故障的处理来看,当某个端口流量过大时,应先对该端口下挂设备的流量进行观察,如果该设备下挂用户的出流量之和小于入流量且差额较大,基本可以判断流量存在问题,既可能是有外网***,也可能是设备本身故障。
这时就需要对端口进行抓包,如果通过抓包发现问题及时处理,如果没有发现问题则只能通过对用户逐步排查的方法进行查找。
一种方法是将所有用户断掉再逐步添加查找,另一种是逐步将用户取出查找,如果用户反映强烈,建议先将用户全部断开,这样只要存在问题的用户没有加入,那么前期加入的用户就可以正常上网。
以上是此次故障处理的经过,其中肯定存在错误,希望能够看到这篇文章的大侠们多提意见,如果有更好的故障处理方法希望多多提出,多谢!