2022年,我司技术工程师在进行第四季度设备巡检时,就在客户公司发现了一个负载均衡设备故障。
1.确认问题
我们发现有一台F5负载均衡设备,状态出现异常,出现所有的业务健康检查均未通过、设备HA状态异常现象,如下图所示:
经确认,1.1.1.2与1.1.1.1两台设备互为主备:在故障出现前,1.1.1.2为主机,1.1.1.1为备机;目前,1.1.1.2状态异常转为备机,1.1.1.1成为新的主机。
2.原因分析
在确保生产环境的设备主备状态正常后,对故障设备进行原因分析:
1.WEB页面检查设备,发现1.1.1.2的业务端口出现down的状态:
2.现场检查设备,看见设备除了管理口外的端口都没有亮灯:
3.目前分析可能存在的问题有三种:
①线路或者光模块存在异常;
②设备系统存在异常;
③设备硬件存在异常。
由于本次故障四个端口同时出现问题,故排除了第①种可能。
4.进行重启设备,发现设备在重启后故障现象依旧存在,且设备在命令行下一直有异常日志弹出:
Bcm56xxd是控制网口的进程,日志条目一直显示该进程正在重新启动,目前问题基本定位到是由于该进程的异常引起的;
5.对设备进行重装系统,发现设备在完成系统重装后,仍然一直在弹出上述日志,因此可以排除是软件层面的异常,排除第②种可能;
6.综上所述,确定是硬件层面的故障导致了问题的出现。
3.解决方案
经与客户协商,从客户测试环境撤下一台同型号的F5设备,将该设备当作新的备机来使用。
操作流程如下:
1.将新备机在测试环境的配置备份下来,存档备用:
2.将新设备从原机柜断电下架,重新上架到对应机柜;
3.为新设备上电并重新安装系统,将系统更新到与主机1.1.1.1相同的版本
4.为新设备配置好基础的网络配置,如设备管理IP、管理员账户等;
5.在新设备上将设备手动锁定为“强制备机”状态,避免后续发生自动切换;
6.将原备机的心跳线、管理线、业务线拔掉;
7.将原备机拔下来的心跳线、管理线接到新备机上;
8.使新备机与主机完成HA关系的建立;
9.HA建立完成后,将配置从主机同步到新备机上;
10.配置同步完成,将业务线接到新备机上;
11.检查新备机的状态,确认新备机状态正常;线路状态正常、业务健康检查正常;
12.解除备机的“强制备机”状态。
主备的问题已基本解决,后续再手动进行一次切换测试即可。
4.得出结论
管理IP为1.1.1.2的原设备,硬件存在异常,导致所有网口出现问题。
本期内容已结束,如果有问题可以留言,带你看不一样的IT世界,我们下期再见!