2022年,我司技术工程师在进行第四季度设备巡检时,就在客户公司发现了一个负载均衡设备故障。

1.确认问题

  我们发现有一台F5负载均衡设备,状态出现异常,出现所有的业务健康检查均未通过、设备HA状态异常现象,如下图所示: 

负载均衡设备一般部署在什么位置 负载均衡常见问题_IP

 

  经确认,1.1.1.2与1.1.1.1两台设备互为主备:在故障出现前,1.1.1.2为主机,1.1.1.1为备机;目前,1.1.1.2状态异常转为备机,1.1.1.1成为新的主机。

2.原因分析

  在确保生产环境的设备主备状态正常后,对故障设备进行原因分析:

1.WEB页面检查设备,发现1.1.1.2的业务端口出现down的状态:

负载均衡设备一般部署在什么位置 负载均衡常见问题_IP_02

 

2.现场检查设备,看见设备除了管理口外的端口都没有亮灯:

负载均衡设备一般部署在什么位置 负载均衡常见问题_测试环境_03

3.目前分析可能存在的问题有三种:

①线路或者光模块存在异常;

②设备系统存在异常;

③设备硬件存在异常。

由于本次故障四个端口同时出现问题,故排除了第①种可能。

4.进行重启设备,发现设备在重启后故障现象依旧存在,且设备在命令行下一直有异常日志弹出:

负载均衡设备一般部署在什么位置 负载均衡常见问题_重启_04

 

Bcm56xxd是控制网口的进程,日志条目一直显示该进程正在重新启动,目前问题基本定位到是由于该进程的异常引起的;

5.对设备进行重装系统,发现设备在完成系统重装后,仍然一直在弹出上述日志,因此可以排除是软件层面的异常,排除第②种可能;

6.综上所述,确定是硬件层面的故障导致了问题的出现。

3.解决方案

  经与客户协商,从客户测试环境撤下一台同型号的F5设备,将该设备当作新的备机来使用。

  操作流程如下:

1.将新备机在测试环境的配置备份下来,存档备用:

2.将新设备从原机柜断电下架,重新上架到对应机柜;

3.为新设备上电并重新安装系统,将系统更新到与主机1.1.1.1相同的版本

4.为新设备配置好基础的网络配置,如设备管理IP、管理员账户等;

5.在新设备上将设备手动锁定为“强制备机”状态,避免后续发生自动切换;

6.将原备机的心跳线、管理线、业务线拔掉;

7.将原备机拔下来的心跳线、管理线接到新备机上;

8.使新备机与主机完成HA关系的建立;

9.HA建立完成后,将配置从主机同步到新备机上;

10.配置同步完成,将业务线接到新备机上;

11.检查新备机的状态,确认新备机状态正常;线路状态正常、业务健康检查正常;

负载均衡设备一般部署在什么位置 负载均衡常见问题_IP_05

负载均衡设备一般部署在什么位置 负载均衡常见问题_测试环境_06

  

12.解除备机的“强制备机”状态。

主备的问题已基本解决,后续再手动进行一次切换测试即可。

4.得出结论

  管理IP为1.1.1.2的原设备,硬件存在异常,导致所有网口出现问题。

  本期内容已结束,如果有问题可以留言,带你看不一样的IT世界,我们下期再见!