Netscreen 防火墙日常维护指南
一、综述. 3
二、Netscreen防火墙日常维护. 3
常规维护:. 3
应急处理. 7
总结改进. 8
故障处理工具. 9
三、Netscreen 冗余协议(NSRP). 10
NSRP部署建议. 10
NSRP常用维护命令. 11
四、策略配置与优化(Policy). 12
五、攻击防御(Screen). 13
五、特殊应用处理. 15
长连接应用处理. 15
不规范TCP应用处理. 16
VOIP应用处理. 16
附录:JUNIPER防火墙Case信息表. 17
防火墙作为企业核心网络中的关键设备,需要为所有进出网络的信息流提供安全保护,对于企业关键的实时业务系统,要求网络能够提供7*24小时的不间断保护,保持防火墙系统可靠运行及在故障情况下快速诊断恢复成为维护人员的工作重点。
NetScreen防火墙提供了丰富的冗余保护机制和故障诊断、排查方法,通过日常管理维护可以使防火墙运行在可靠状态,在故障情况下通过有效故障排除路径能够在最短时间内恢复网络运行。本文对Netscreen防火墙日常维护进行较系统的总结,为防火墙维护人员提供设备运维指导。
围绕防火墙可靠运行和出现故障时能够快速恢复为目标,Netscreen防火墙维护主要思路为:通过积极主动的日常维护将故障隐患消除在萌芽状态;故障发生时,使用恰当的诊断机制和有效的故障排查方法及时恢复网络运行;故障处理后及时进行总结与改进避免故障再次发生。
在防火墙的日常维护中,通过对防火墙进行健康检查,能够实时了解Netscreen防火墙运行状况,检测相关告警信息,提前发现并消除网络异常和潜在故障隐患,以确保设备始终处于正常工作状态。
1、 日常维护过程中,需要重点检查以下几个关键信息:
Session:如已使用的Session数达到或接近系统最大值,将导致新Session不能及时建立连接,此时已经建立Session的通讯虽不会造成影响;但仅当现有session连接拆除后,释放出来的Session资源才可供新建连接使用。维护建议:当Session资源正常使用至85%时,需要考虑设备容量限制并及时升级,以避免因设备容量不足影响业务拓展。
CPU: Netscreen是基于硬件架构的高性能防火墙,很多计算工作由专用ASIC芯片完成,正常工作状态下防火墙CPU使用率应保持在50%以下,如出现CPU利用率过高情况需给予足够重视,应检查Session使用情况和各类告警信息,并检查网络中是否存在攻击流量。通常情况下CPU利用率过高往往与攻击有关,可通过正确设置screening对应选项进行防范。
Memory: NetScreen防火墙对内存的使用把握得十分准确,采用“预分配”机制,空载时内存使用率为约50-60%,随着流量不断增长,内存的使用率应基本保持稳定。如果出现内存使用率高达90%时,需检查网络中是否存在攻击流量,并察看为debug分配的内存空间是否过大(get dbuf info单位为字节)。
2、在业务使用高峰时段检查防火墙关键资源(如:Cpu、Session、Memory和接口流量)等使用情况,建立网络中业务流量对设备资源使用的基准指标,为今后确认网络是否处于正常运行状态提供参照依据。当session数量超过平常基准指标20%时,需检查session表和告警信息,检查session是否使用于正常业务,网络中是否存在flood攻击行为。当Cpu占用超过平常基准指标50%时,需查看异常流量、告警日志、检查策略是否优化、配置文件中是否存在无效的命令。
3、防火墙健康检查信息表:
设备型号 |
| 软件版本 |
| 设备序列号 |
| |
设备用途 | XX区防火墙 | 设备状态 | 主用/备用 | 设备组网方式 | 如:Layer3 口型A/P | |
检查对象 | 检查命令 | 相关信息 | 检查结果 | 备注 | ||
Session | Get session |
|
|
| ||
CPU | Get perf cpu |
|
|
| ||
Memory | Get memory |
|
|
| ||
Interface | Get interface |
|
|
| ||
路由表 | Get route |
|
|
| ||
HA状态 | Get nsrp |
|
|
| ||
事件查看 | Get log event |
|
|
| ||
告警信息 | Get alarm event |
|
|
| ||
机箱温度 | Get chassis |
|
|
| ||
LED | LED指示灯检查 |
|
|
| ||
设备运行 参考基线 | Session |
| ||||
Cpu |
| |||||
Memory |
| |||||
接口流量 |
| |||||
业务类型 |
| |||||
机箱温度 |
|
4、 常规维护建议:
1、配置System-ip地址,指定专用终端管理防火墙;
2、更改netscreen账号和口令,不建议使用缺省的netscreen账号管理防火墙;设置两级管理员账号并定期变更口令;仅容许使用SSH和SSL方式登陆防火墙进行管理维护。
3、深入理解网络中业务类型和流量特征,持续优化防火墙策略。整理出完整网络环境视图(网络端口、互联地址、防护网段、网络流向、策略表、应用类型等),以便网络异常时快速定位故障。
4、整理一份上下行交换机配置备份文档(调整其中的端口地址和路由指向),提供备用网络连线。防止防火墙发生硬件故障时能够快速旁路防火墙,保证业务正常使用。
5、在日常维护中建立防火墙资源使用参考基线,为判断网络异常提供参考依据。
6、重视并了解防火墙产生的每一个故障告警信息,在第一时间修复故障隐患。
7、建立设备运行档案,为配置变更、事件处理提供完整的维护记录,定期评估配置、策略和路由是否优化。
8、故障设想和故障处理演练:日常维护工作中需考虑到网络各环节可能出现的问题和应对措施,条件允许情况下,可以结合网络环境演练发生各类故障时的处理流程,如:NSRP集群中设备出现故障,网线故障及交换机故障时的路径保护切换。
9、设备运行档案表
设备型号 |
| 软件版本 |
| 设备序列号 |
| |
设备用途 | XX区防火墙 | 设备状态 | 主用/备用 | 设备组网方式 | 如:Layer3 口型A/P | |
保修期限 |
| 供应商联系方式 |
| |||
配置变更 | 变更原因 | 变更内容 | 结果 | 负责人 | ||
|
|
|
| |||
|
|
|
| |||
|
|
|
| |||
|
|
|
| |||
事件处理 | 事件现象 | 处理过程 | 结果 | 负责人 | ||
|
|
|
| |||
|
|
|
| |||
|
|
|
| |||
|
|
|
|
当网络出现故障时,应迅速检查防火墙状态并判断是否存在攻击流量,定位故障是否与防火墙有关。如果故障与防火墙有关,可在防火墙上打开debug功能跟踪包处理过程,检验策略配置是否存在问题。一旦定位防火墙故障,可通过命令进行NSRP双机切换,单机环境下发生故障时利用备份的交换机/路由器配置,快速旁路防火墙。在故障明确定位前不要关闭防火墙。
1、 检查设备运行状态
网络出现故障时,应快速判断防火墙设备运行状态,通过Console口登陆到防火墙上,快速查看CPU、Memory、Session、Interface以及告警信息,初步排除防火墙硬件故障并判断是否存在攻击行为。
2、 跟踪防火墙对数据包处理情况
如果出现部分网络无法正常访问,顺序检查接口状态、路由和策略配置是否有误,在确认上述配置无误后,通过debug命令检查防火墙对特定网段数据报处理情况。部分地址无法通过防火墙往往与策略配置有关。
3、 检查是否存在攻击流量
通过查看告警信息确认是否有异常信息,同时在上行交换机中通过端口镜像捕获进出网络的数据包,据此确认异常流量和攻击类型,并在Screen选项中启用对应防护措施来屏蔽攻击流量。
4、 检查NSRP工作状态
使用get nsrp命令检查nsrp集群工作状态,如nsrp状态出现异常或发生切换,需进一步确认引起切换的原因,引起NSRP切换原因通常为链路故障,交换机端口故障,设备断电或重启。设备运行时务请不要断开HA心跳线缆。
5、 防火墙发生故障时处理方法
如果出现以下情况可初步判断防火墙存在故障:无法使用console口登陆防火墙,防火墙反复启动、无法建立ARP表、接口状态始终为Down、无法进行配置调整等现象。为快速恢复业务,可通过调整上下行设备路由指向,快速将防火墙旁路,同时联系供应商进行故障诊断。
故障处理后的总结与改进是进一步巩固网络可靠性的必要环节,有效的总结能够避免很多网络故障再次发生。
1、在故障解决后,需要进一步总结故障产生原因,并确认该故障已经得到修复,避免故障重复发生。
2、条件容许的情况下,构建防火墙业务测试环境,对所有需要调整的配置参数在上线前进行测试评估,避免因配置调整带来新的故障隐患。
3、分析网络可能存在的薄弱环节和潜在隐患,通过技术论证和测试验证来修复隐患。
Netscreen防火墙提供灵活多样的维护方式,其中故障处理时最有用的两个工具是debug(调试)和snoop(探听),debug用于跟踪防火墙对指定包的处理,snoop用于捕获流经防火墙的数据包,由于debug和snoop均需要消耗防火墙的cpu和memory资源,在使用时务必要设置过虑列表,防火墙将仅对过虑列表范围内的包进行分析,包分析结束后应在第一时间关闭debug和snoop功能。下面简要介绍一下两个工具的使用方法。
Debug:跟踪防火墙对数据包的处理过程
1. Set ffilter src-ip x.x.x.x dst-ip x.x.x.x dst-port xx
设置过滤列表,定义捕获包的范围
2、clear dbuf 清除防火墙内存中缓存的分析包
3、debug flow basic 开启debug数据流跟踪功能
4、发送测试数据包或让小部分流量穿越防火墙
5、undebug all 关闭所有debug功能
6、get dbuf stream 检查防火墙对符合过滤条件数据包的分析结果
7、unset ffilter 清除防火墙debug过滤列表
8、clear dbuf 清除防火墙缓存的debug信息
9、get debug 查看当前debug设置
Snoop:捕获进出防火墙的数据包,与Sniffer嗅包软件功能类似。
1. Snoop filter ip src-ip x.x.x.x dst-ip x.x.x.x dst-port xx
设置过滤列表,定义捕获包的范围
2、clear dbuf 清除防火墙内存中缓存的分析包
3、snoop 开启snoop功能捕获数据包
4、发送测试数据包或让小部分流量穿越防火墙
5、snoop off 停止snoop
6、get db stream 检查防火墙对符合过滤条件数据包的分析结果
7、snoop filter delete 清除防火墙snoop过滤列表
8、clear dbuf 清除防火墙缓存的debug信息
9、snoop info 查看snoop设置
Nsrp协议提供了灵活的设备和路径冗余保护功能,在设备和链路发生故障的情况下进行快速切换,切换时现有会话连接不会受到影响。设计nsrp架构时通常采用基于静态路由的active/passive主备模式、口型或全交叉型连接方式。
l 基于端口和设备的冗余环境中,无需启用端口和设备级的抢占模式(preempt),避免因交换机端口不稳定而引发nsrp反复切换。
l 当配置两组或两组以上的防火墙到同一组交换机上时,每组nsrp集群应设置不同的cluster ID号,避免因相同的cluster ID号引发接口MAC地址冲突现象。
l 防火墙nsrp集群建议采用接口监控方式,仅在网络不对称的情况下有选择使用Track-ip监控方式。在对称网络中接口监控方式能够更快更准确的反映网络状态变化。
l 在单台防火墙设备提供的session和带宽完全可以满足网络需求时,建议采用基于路由的Active-Passive主备模式,该模式组网结构清晰,便于维护和管理。
l 设备运行时应保证HA线缆连接可靠,为确保HA心跳连接不会出现中断,建议配置HA备份链路“secondary-path”。
l NSRP许多配置参数是经过检验的推荐配置,通常情况下建议采用这些缺省参数。
l get license-key 查看防火墙支持的feature,其中NSRPA/A模式包含了A/P模式,A/P模式不支持A/A模式。Lite版本是简化版,支持设备和链路冗余切换,不支持配置和会话同步。
l exec nsrp sync global-config check-sum 检查双机配置命令是否同步
l exec nsrp sync global-config save 如双机配置信息没有自动同步,请手动执行此同步命令,需要重启系统。
l get nsrp 查看NSRP集群中设备状态、主备关系、会话同步以及参数开关信息。
l Exec nsrp sync rto all from peer 手动执行RTO信息同步,使双机保持会话信息一致
l exec nsrp vsd-group 0 mode backup 手动进行主备状态切换时,在主用设备上执行该切换命令,此时该主用设备没有启用抢占模式。
l exec nsrp vsd-group 0 mode ineligible 手动进行主备状态切换时,在主用设备上执行该切换命令,此时该主用设备已启用抢占模式。
l set failover on/set failover auto启用并容许冗余接口自动切换
l exec failover force 手动执行将主用端口切换为备用端口。
l exec failover revert 手动执行将备用端口切换为主用端口。
l get alarm event 检查设备告警信息,其中将包含NSRP状态切换信息
防火墙策略优化与调整是网络维护工作的重要内容,策略是否优化将对设备运行性能产生显著影响。考虑到企业中业务流向复杂、业务种类往往比较多,因此建议在设置策略时尽量保证统一规划以提高设置效率,提高可读性,降低维护难度。
策略配置与维护需要注意地方有:
l 试运行阶段最后一条策略定义为所有访问允许并作log,以便在不影响业务的情况下找漏补遗;当确定把所有的业务流量都调查清楚并放行后,可将最后一条定义为所有访问禁止并作log,以便在试运行阶段观察非法流量行踪。试运行阶段结束后,再将最后一条“禁止所有访问”策略删除。
l 防火墙按从上至下顺序搜索策略表进行策略匹配,策略顺序对连接建立速度会有影响,建议将流量大的应用和延时敏感应用放于策略表的顶部,将较为特殊的策略定位在不太特殊的策略上面。
l 策略配置中的Log(记录日志)选项可以有效进行记录、排错等工作,但启用此功能会耗用部分资源。建议在业务量大的网络上有选择采用,或仅在必要时采用。另外,对于策略配置中的Count(流量统计)选项,如非必要建议在业务时段不使用。
l 简化的策略表不仅便于维护,而且有助于快速匹配。尽量保持策略表简洁和简短,规则越多越容易犯错误。通过定义地址组和服务组可以将多个单一策略合并到一条组合策略中。
l 策略用于区段间单方向网络访问控制。如果源区段和目的区段不同,则防火墙在区段间策略表中执行策略查找。如果源区段和目的区段相同并启用区段内阻断,则防火墙在区段内部策略表中执行策略查找。如果在区段间或区段内策略表中没有找到匹配策略,则安全设备会检查全局策略表以查找匹配策略。
l MIP/VIP地址属于全局区段地址,配置策略时建议通过全局区段来配置MIP/VIP地址相关策略,MIP/VIP地址虽然可为其余区段调用,但由于其余区段的“any”地址并不包括全局区段地址,在定义策略时应加以注意,避免配置不生效的策略。
l 策略变更控制。组织好策略规则后,应写上注释并及时更新。注释可以帮助管理员了解每条策略的用途,对策略理解得越全面,错误配置的可能性就越小。如果防火墙有多个管理员,建议策略调整时,将变更者、变更具体时间、变更原因加入注释中,便于后续跟踪维护。
Netscreen防火墙利用Screening功能抵御互联网上流行的DoS/DDoS的攻击,一些流行的攻击手法有Synflood,Udpflood,Smurf,Ping of Death,Land Attack等,防火墙在抵御这些攻击时,通过专用ASIC芯片来进行处理,适当开启这些抗攻击选项对防火墙的性能不会产生太大影响。如果希望开启Screening内的其它选项,在开启这些防护功能前有几个因素需要考虑:
· 抵御攻击的功能会占用防火墙部分CPU资源;
· 自行开发的一些应用程序中,可能存在部分不规范的数据包格式;
网络环境中可能存在非常规性设计。
如果因选择过多的防攻击选项而大幅降低了防火墙处理能力,则会影响正常网络处理的性能;如果自行开发的程序不规范,可能会被IP数据包协议异常的攻击选项屏蔽;非常规的网络设计也会出现合法流量被屏蔽问题。
要想有效发挥Netscreen Screening攻击防御功能,需要对网络中流量和协议类型有比较充分的认识,同时要理解每一个防御选项的具体含义,避免引发无谓的网络故障。防攻击选项的启用需要采用逐步逼近的方式,一次仅启用一个防攻击选项,然后观察设备资源占用情况和防御结果,在确认运行正常后再考虑按需启用另一个选项。建议采用以下顺序渐进实施防攻击选项:
l 设置防范DDoS Flood攻击选项
l 根据掌握的正常运行时的网络流量、会话数量以及数据包传输量的值,在防范DDoS的选项上添加20%的余量作为阀值。
l 如果要设置防范IP协议层的选项,需在深入了解网络环境后,再将IP协议和网络层的攻击选项逐步选中。
l 设置防范应用层的选项,在了解应用层的需求以及客户化程序的编程标准后,如不采用ActiveX控件,可以选择这些基于应用层的防攻击选项。
l 为检查网络中是否存在攻击流量,可以临时打开该区段screening顶部Generate Alarms without Dropping Packet选项,确认攻击类型后再将该选项去除。
l 在设置screening选项的过程中,应密切注意防火墙CPU的利用率,以及相关应用的使用情况;如果出现异常(CPU利用率偏高了或应用不能通过),则立刻需要取消相关的选项。
l 建议正常时期在untrust区启用防flood攻击选项,在办公用户区启用flood和应用层防护选项,在核心业务区不启用screening选项,仅在网络出现异常流量时再打开对应的防御功能。
在金融行业网络中经常会遇到长连接应用,基于状态检测机制的防火墙在处理此类应用时要加以注意。缺省情况下,Netscreen防火墙对每一个会话的连接保持时间是30分钟(TCP)和5分钟(UDP),超时后状态表项将会被清除。所以在实施长连接应用策略时要配置合适的timeout值,以满足长连接应用的要求。配置常连接应用需注意地方有:
l 如果在长连接应用中已经设计了心跳维持机制(如每隔几分钟,客户端与服务端之间传送心跳以维持会话),此时无需防火墙上设置timeout时间,使用默认配置即可。
l 长连接应用中没有心跳机制时,通常情况下建议timeout值为36小时。应用通常在工作时间建立连接,这样可在下班后时间拆除连接。
l 在配置 timeout值时,特别提醒不要使用“never timeout”(永不超时)的选项。该选项将可能造成防火墙的session被大量消耗同时这些session处于僵死状态。如果需要超时等待的时间确实很长,建议配置一个具体的长时间段(如一周)。
正常TCP应用连接建立需要3次握手,然而某些用户定制的应用程序因开发规范不严谨或特殊需要,存在类似SYN没有置位的连接请求,对于这类不严谨的通讯处理应加以特别注意,因为netscreen防火墙在默认情况下,对这种不严谨的TCP连接视为非法连接并将连接阻断。建议跟踪网络中每类业务的通讯状况,在某些应用发生通讯障碍时,通过debug分析是否是防火墙拒绝了不严谨的TCP 包,确认后通过设置unset flow tcp-syn-check 的命令来使防火墙取消这种防范机制。
Netscreen防火墙默认启用H.323应用代理机制,应用代理的作用是使防火墙能够理解应用通讯的内容,让防火墙能够从信令通道中提取出协商的端口信息,并在防火墙上动态的打开这些端口,在语音通讯结束后,再动态关闭这些临时端口。但由于H.323协议的复杂性和各厂家实现上的差异,容易造成防火墙在与各厂家VOIP系统互操作上存在兼容性问题,出现IP话机无法注册、语音连接无法建立、拨号时间较长等故障现象。解决方法两种:
1、set alg h323 disable 直接关闭防火墙上的h.323应用代理功能,让H.323语音流量按常规应用连接方式进行通信。
2、Set policy id X from trust to untrust any any h.323 permit
Set policy id X application ignore
通过访问控制策略使H.323应用采用常规连接方式进行通信。(注:很多用户定制程序使用自定义的端口号,ignore参数使防火墙忽略端口的应用类型,仅按常规方式处理通信连接。此参数也适用于端口号非21/20的FTP应用)
设备型号 |
| 软件版本 |
| 设备序列号 |
|
故障级别 |
| 网络结构 | 如:Layer3 A/P 口型结构 | ||
故障现象 具体描述 |
| ||||
资源占用 | Get session info |
| |||
Get pre cpu detail |
| ||||
Get memory |
| ||||
状态信息 | Get config |
| |||
Get system |
| ||||
Get interface |
| ||||
Get nsrp |
| ||||
Get route |
| ||||
Get arp |
| ||||
Get chassis |
| ||||
Get socket |
| ||||
Get pport |
| ||||
日志查看 | Get log event |
| |||
Get alarm event |
| ||||
Get log system |
| ||||
关联信息 | Get tech-support | 通过tftp服务器收集后作为文件附件一并附上 |