前段时间在某论坛中看到有网友问SCOM能否监测到服务器宕机,是怎么样一个工作过程?今天我将给大家讲述这方面的内容,在SCOM中监测服务器宕机主要涉及心跳信号这部分内容,SCOM服务器和Agent之间是有心跳信号通讯的。默认情况下,SCOM Agent每60秒会发送一次心跳信号给SCOM Server,如果SCOM服务器端超过60秒钟没有接收到Agent端发送过来的心跳信号,就会在SCOM控制台的监控窗口中产生一个“运行状况服务检测信号失败”的告警。SCOM服务器最多允许错过3次心跳信号,假如SCOM服务器超过3次心跳周期没有接收到Agent的心跳信号,服务器会使用PING的方式来尝试能否连接到Agent,如果不能PING通,这时候会在SCOM控制台的监控窗口产生“连接到计算机失败”的告警,产生这种告警的时候,如果能够排除网络的原因,通常情况下就是我们的服务器宕机或者其它原因造成服务器不可用了。下面在测试环境中模拟一下给大家看看整个工作过程:
       首先来看看SCOM关于心跳检测信号的默认配置:
       image
       image
       接下来将测试环境中的一台Scom Agent关机,呆会到SCOM控制台的监控窗口检测一下告警的情况:
       image
       从上面的截图返回的信息显示服务器关机之后能够被正常监测到,如果我们订阅了邮件告警会同时接收到告警邮件信息并且解决状态为“新建”:
       image
       接下来,开启刚才那台被关机的服务器,待服务器重启完成之后来到SCOM控制台看看监控的更新情况:
      image
      对比本文中两张SCOM控制台的截图能够发现之前产生的两条告警信息已经没有了,说明故障已经自动排除。同时也会收到相关的邮件信息并且解决状态为“已关闭”:
      image
      好了,关于SCOM Agent心跳响应机制就介绍到这,有兴趣的朋友可以自行模拟一下^_^