众所周知,在现今的园区网络中,冗余架构已经是必不可少的了,但是今天碰到的一个问题,竟然就是双出口链路加NQA检测造成的。
园区中有两条外网专线,分别是联通和电信,一条内网数据专线用的是移动,起初是有人跟我反馈办公电脑上OA特别慢,(PS:OA走的ipsecVPN链路),我便在电脑上ping测试了OA的ip地址,发现这个地址竟然ping不通,后来又多ping了几次,发现能ping通几下,但是延迟竟然达到1000ms,这简直是不能用的程度了呀,我于是登录防火墙进行ping测试外网地址连通性,OA走的是移动内部数据专线,延迟很高,达到1000多毫秒,又测试了两个出口的联通性,刚开始没用多Ping测试,只是测了四个包以后,觉的正常,而且我又去机房看带宽光猫的指示灯,发现也是正常的,到这开始我便觉得是数据专线的问题,于是我便开始觉得是数据专线这块有问题。
然后在各种保证不断网的情况下,各种测试,后来又有人跟我反馈上百度,企业微信也很慢,我又测试了百度等网站的一些连通性,发现丢包延迟很严重,然后觉得很纳闷,难道是内网之间有问题,于是我只能再开始测试内网是不是有环路,以及设备哪里有问题等骚操作,可笑的是在ssh界面,是看不到一些报错的,nqa报错一直没有提示,最后在使用connsole线插到防火墙上才看到铺满屏幕的nqa报错,后来在重新测试了外网联通性,发现联通专线ping一百个包,会断断续续的丢包,就是一会好,一会不好,然后nqa的作用就出来了,当nqa检测联通链路丢包超过阈值时,便会切换到电信链路上,当nqa检测到联通链路ping包正常时,就会切换到联通链路上,就这样反反复复,导致园区内部上网延迟和丢包很严重,这时把联通的链路断掉,延迟和丢包问题就解决了,ping长包命令是必不可少的检测连通性手法:ping -c 100 -a 10.x.x.x.x 254.x.x.x,测试外网连通性首先先长ping对端公网IP,测试完没问题后,可以再测试运营商对应的DNS地址。
.H3C长ping包命令:ping -c 100 -a 217.x.x.x.x 217.x.x.x
--------------------------------------------------------------------------------
山东联通的DNS为:主DNS:202.102.152.3 218.56.57.58
备用DNS:202.102.128.68 202.102.134.68
--------------------------------------------------------------------------------
山东首席电信DNS:219.146.0.130(全省)
山东备用电信DNS:291.150.32.132(全省)
山东移动首选dns服务器IP:218.201.96.130
山东移动备用dns服务器IP:211.137.191.26
--------------------------------------------------------------------------------
问题找到了,nqa当时做的时候想的不够全面,本来是以为为了冗余做的链路检测,没想到后来也变成了排查问题的一道坎。