11月11号,在这个剁手的日子里,我们计划做一次SD-WAN网络切换,本来按照计划应该没有什么问题,实际操作时是一团乱。 当我们线缆接好,突然发现核心交换机上一个诡异的现象,电口的指示灯不亮,常规反应是接口模块有问题,我手里有三个备件,全部换上以后,还是发现接口指示灯不亮,但是SD-WAN对端的端口指示灯是亮的,然后怀疑网线有问题,又换了两条网线,还是同样的现象。通过show int status是在核心交换机上能看到接口状态是connected,你说气人不。后来推断是核心交换机问题,如果一切不符合逻辑的问题出现,那就重启试一下,重启后,核心交换机的问题解决了。

上边做这个排错花了有一个多小时,因为相关的命令早在设备上配置好了,只要物理层对了,那就该建连接的建连接,也没有啥问题。

网络切换后,测试了所有的服务,都正常,隧道呀,路由都正常,但是发现从公网访问服务器的主页出问题了,不能打开主页。就这点事,做网络的说服务器的问题,做服务器的说做网络的问题。害得我从头排查,先检查公网DNS配置,这个没有动过,然后可以解析,指向我们的公网地址,然后检查负载均衡的虚拟机IP地址可以访问,内部的DNS解析也对,内部的OWA也能打开,证明服务是正常的。 原因就是少了一条NAT的记录,把公网的IP通过NAT指向内部负载均衡的主机的VIP,加上相应的端口。

我是没有权限访问防火墙,但是问题点很清楚,然后就是沟通问题了。其实就是管网络的更改了一条NAT记录,他们的思维逻辑有问题。比如就是原来的配置公网的IP地址35指向内部的36,公网的36指向内部的35,这种做法也没有问题反正把端口号做对了就肯定能用,但是他觉得这种是交插引用,他觉得就是35对35,36对36合理。管网络的就修改firewall上的NAT,管服务器的也各改负载均衡上的主机相对应的VIP,两个人总是改的相反的结果,邮件上各种更新自己做的结果,看得我内心崩溃,而且告诉他们问题出在哪里了,也不看我的邮件,也不给我权限,我是干着急,没有办法,最后在一个会议上,终于整明白了,花了一分钟就把问题解决了。

经验总结三条: 网络设备不要几年不重启,再牛X的IOS也不成。 通过正确的方法判断问题所在,然后要用对方的思维逻辑明白,其实要都是中国人还好说,怕的是老外的思维逻辑跟你是完全不一样的