好久没写东西,也好久没来51博客,说工作忙也是借口,这篇文章早就想写了的,但一直都没有去实践,只是想想而已,任何想法,只有去实施了,才会有意义。写文章一是总结经验,理清思路,时间长了忘记了,还可以回来看看。好了不胡扯了,进入正题!


(如下图1的部署情况),IMC平台的网络拓扑图看着线路也是绿色的(绿色表示线路正常,红色表示线路中断),设备两端互联接口状态也是正常的,接口物理层和协议层都是UP状态,这时平台就不会产生告警,IMC平台的检查线路中断的机制有两种:

   1)、通过设备发送trap信息至IMC平台,平台匹配预设的trap机制产生告警;

   上述情况,因为两端设备的端口状态都是UP的,不会产生trap信息;

   2)、通过平台预设的轮询机制去检查网络设备的端口状态;

   上述情况,因为两端设备的端口状态物理层和协议层都是up状态,平台轮询设备接口时,也不会产生告警;

imc监控 imc监控工具_网络

   对于上述情况,就导致监控线路的通断产生盲点,只有分支机构设备不可达时(两条线路都中断),才会知道线路已经故障,这时分支机构已经停业,对于运维来说,最重要的就是预防停业事故,有故障及早发现处理;

   对此可以通过设备两端配置BFD进行线路的检查,当线路中断时,BFD会话会从UP->DOWN,然后设备会产生syslog的日志,通过发送日志到平台,最终利用平台的syslog升级为告警功能来产生线路中断的告警信息,这样就能保证监控的实时性,做到发生故障及时处理;


具体配置实施如下(以华三的设备举例,其它厂商的设备没有验证过,不知道平台能否解析其它厂商的syslog日志),下面的配置是基于分支机构与总部之间运行OSPF的前提下进行的配置的,如果总部与分支机构间没有运营动态路由协议,可以采用BFD Echo报文方式进行线路的通断检查,网络设备的配置可以参考手册,IMC平台的配置与下述的相同。


1、分支机构设备R3的配置
interface GigabitEthernet0/0/0
 description To_XXXX
 ip address 99.3.251.129 255.255.255.252
 ospf bfd enable
 bfd min-transmit-interval 1000
    bfd min-receive-interval 1000  
    
interface GigabitEthernet0/0/1
 description To_XXXX
 ip address 99.3.250.129 255.255.255.252
 ospf bfd enable
 bfd min-transmit-interval 1000
    bfd min-receive-interval 1000 
info enable
info loghost 192.168.2.10
info-center source BFD channel loghost  //配置BFD会话的日志发送至IMC平台

2、总部设备R1和R2的配置
interface GigabitEthernet0/0/1     //R1
 description To_XXXX
 ip address 99.3.251.130 255.255.255.252
 ospf bfd enable
 bfd min-transmit-interval 1000
    bfd min-receive-interval 1000  
    info enable
info loghost 192.168.2.10
info-center source BFD channel loghost 

interface GigabitEthernet0/0/1    //R2
 description To_XXXX
 ip address 99.3.250.130 255.255.255.252
 ospf bfd enable
 bfd min-transmit-interval 1000
    bfd min-receive-interval 1000 
info enable
info loghost 192.168.2.10
info-center source BFD channel loghost

3、IMC平台的配置

   在告警-Syslog管理中进行配置,首先配置解析模板库(解析网络设备发过来的syslog日志),再配置升级告警规则(如果匹配解析模板后,就其升级为相应的告警级别);

   BFD的syslog日志会有几种状态,还以设备的软件版本(V7和V5)有关,版本不同,解析模板也会不同,因此需要以产生的BFD会话状态的syslog日志来写解析模板,下面的配置是以V5版本的举例的;

   1)、配置解析模板  

   BFD会话从UP-DOWN的状态,此时表示线路故障了;

   脚本:BFD/5/*Sess[$(本端IP地址)/$(对端IP地址),*,$(接口),Ctrl], Sta: UP->DOWN, Diag: *

imc监控 imc监控工具_网络设备_02

   

     BFD会话从DOWN-UP的状态,表示线路恢复正常;

    脚本:BFD/5/*Sess[$(本端IP地址)/$(对端IP地址),*,$(接口),Ctrl], Sta:*->UP, Diag: *

imc监控 imc监控工具_log日志_03


   2)、配置升级告警规则

    主要是将平台收到设备BFD会话状态变化产生的日志,匹配告警,使其在告警栏中显示,以便运维人员通够及时查看;

imc监控 imc监控工具_运维_04

imc监控 imc监控工具_网络设备_05


   3)、配置恢复告警规则

   恢复告警主要是线路故障恢复后,告警也要从告警栏中消失,主要匹配的是BFD会话从down-up;

imc监控 imc监控工具_网络设备_06


对此基本配置已经完成,下面是生产网络中的实际效果;

imc监控 imc监控工具_网络_07

imc监控 imc监控工具_运维_08


Ctrl], Sta:*->UP, Diag: * “,”后面是空格,当时没加空格,怎么测试,收到的syslog日志怎么也无法产生告警,也无法关联网络拓扑图。

https://blog.51cto.com/muyun/1863361