相关敏感信息去除

1.故障情况
在2019年7月11日接收到值班人员反馈,在23:45开始,三套网管终端显示XXXXX、XXXXX、XXXXX所有网元脱管,在00:00恢复,持续15分钟。同时相关技术人员也反馈在此时间段,三套网管的服务器也与各自网元中断联系,也是持续15分钟。本次故障从7月11日发现,到7月14日解决,一共持续了4天。
2.拓扑说明
一次客户防火墙配置导致业务故障分析
防火墙采用采用透明模式部署在服务器与网管网络之间,配置相应的安全策略。
整个网络使用二层数据交换,不涉及路由转发
3.采取措施
经过线路检测,设备检测,数据包抓包,防火墙日志分析,设备日志分析和主机日志分析都未能定位故障原因。后经过防火墙售后工程师协助定位,定位出故障原因,并同时更改防火墙配置,解决故障。
4.故障解决
4.1.XX网管网络抓包分析
在针对XX网管系统进行抓包分析,故障事件段内有大量OSPF的HELLO报文从XX网元汇聚交换机上进行转发,但是无法通过防火墙转发到服务器上,说明防火墙相关配置阻止了OSPF报文抓发。

一次客户防火墙配置导致业务故障分析

4.2.XX网管网络抓包分析
针对XXXXX,XXXXX传输网管网络进行抓包分析,故障事件段内,有大量二层以太网帧从XXXXX,汇聚交换机上转发,但是无法通过防火墙转发到服务器上,说明防火墙阻止了相关二层数据包
一次客户防火墙配置导致业务故障分析

4.3.更改防火墙配置
针对以上现象,并通过测试,调整防火墙相关配置:
1、配置全局网络-非IP报文转发
针对XX网管网络存在OSPF不能转发问题,设置防火墙转发非IP报文。
一次客户防火墙配置导致业务故障分析

2、配置虚拟交换机-转发带有标记数据包
针对XX网管网络存在部分二层数据包不能抓发问题,设置防火墙转发带有标记的数据包。

一次客户防火墙配置导致业务故障分析

经过以上配置,同时进行充分的测试,故障消失。

5.网络中断事件分析
经过分析和推断,为何23:45-00:00固定事件段网管网络中断,为何防火墙上线一个多月期间并未发生此次故障,总结出以下可能原因:
1、XX网管网络中的设备在23:45-00:00需要发送OSPF报文与服务器建立通信机制,进行某种业务操作,而在故障之前并未采取这种业务操作。
2、XX网管网络中的设备在23:00-00:00需要建立带有TAG的二层数据包与服务器建立通信机制,进行某种业务操作,而在故障之前并未采取这种业务操作。
3、XX,XX三套网管网络在故障事件段同时进行业务操作机制不明,如有需要,要进行彻底排查。
6.相关建议
防火墙是严格按照指定策略规则进行数据包过滤和抓发,此次业务故障确实是因为防火墙配置不当造成,但是同时也说明整个网络存在网络环境不合规和异常举动,建议按照以下几个方面对风险进行规避:
1、核实XX、XX网管网络中设备是否存在定时业务操作在23:45-00:00执行
2、对网管服务器进行漏洞扫描安全加固
3、推进等保评测,推进业务堡垒机使用