好久不写博文了,最近有点懒,今天就记录一个troubleshooting的过程吧。

马上就要十月一了,按照惯例,集团IT要进行设备的节前检查和设备配置的备份等工作,在检查到juniperISG 1000时,发现状态不对,状态显示如下:

 

我这边的环境是两台ISG 1000 NSRP,两台设备一主一备,配置同步,session同步。正常的状态:主为Mmaster),备为Bbackup),而目前的备机的状态为Iinoperable),出现这样的状态,则代表master出现问题时,备机无法取代正常工作。

查阅juniper的资料得知,inoperable状态出现问题的原因是因为系统工作不正常,或者网络连接有问题。

系统工作是否正常暂时无法确认。

CLI下查看逐个的去检查每个接口的状态,使用get interface E1/X 或者是get interface E2/X,检查物理接口,使用get inter redundant1来检查虚拟接口,如下:

 

 

而此两台防火墙互相切换的条件是配置了moniter interface,也就是说当被监控的接口down作为触发条件。目前配置的moniter interface E1/3  E1/4,以及redundant1口,检查中发现,redundant1down,则导致backup机器认为自己出现问题,将来出现问题之时无法取代master正常工作,则变成了inoperable状态,即无法使用的状态。

顺便看下,nsrp moniter的状态:

 

Redundant1 down了看到了吧? 这个很有可能就是使机器出现I状态的原因。

915日晚上,我做了一次测试,将该防火墙的moniter interface中配置监控的redundant1去掉,即不监控该接口,该防火墙立即从inoperable 变为了backup状态。目前基本可以确定是由于接口down的问题,导致inoperable

  今晚计划去IDC现场检查,顺序如下:

1、 检查链路,插拔连接线,并准备多模跳线,看是否是因为物理链问题损坏导致的接口down

2、 检查模块,目前防火墙与下面流控设备之间是使用多模光纤跳线连接,若跳线没有问题,还需确认,光模块是否工作正常。准备多模光模块一枚,准备更换。

3、 理论上讲,通过以上两点,物理故障排除后,接口状态应该变为UP,若两个物理接口UP后,moniter interface的条件已经不存在,防火墙的inoperable应恢复到backup

4、 若状态依然是inoperable,则计划是将两台防火墙的抢占关闭(防止重启后,抢夺master的位置),将该防火墙进行reset

5、 Reset后,依然inoperable状态,回家睡觉……第二天再考虑其他解决方案。

 

欲知后事如何,且看今晚….