告警管理  

       告警管理是 统一数据平台监控与运维系统 的功能之一,包括页面告警、邮件告警、SNMP Trap 报警。

页面告警  

       用户可以通过统一数据平台监控与运维系统的界面查看集群报警信息。如下图:  

       

监控告警一般分几种类型 监控告警录像什么意思_监控告警一般分几种类型

       上图中的查询条件描述如下:

  •        报警类型:显示报警类型的多选框, 包括: 报警信息、恢复信息。 默认都不选的情况下, 都勾选表示选择所有报警类型。
  •        报警等级:显示报警等级的下拉框, 包括: 严重、 次要、 警告、提醒。 默认显示全部报警等级的报警信息。
  •        服务器 IP:支持输入检索的多选菜单,第一项为“所有服务器”,该项为默认值,其他为集群的所有服务器 IP, IP 按升序排列。
  •        监控指标: 支持多选、模糊查询的下拉框。 指标项为平台管理中该集群所选监控策略的指标项。
  •        报警时间:支持日历控件选择。默认为当前操作最近 24 小时。查询时间包含起止时间。
  •        确认方式:显示报警信息确认方式的选择框, 包括: 手动确认、 超时忽略、 未确认。默认为未确认,支持多选。如果都不选择,表示选择所有确认方式。
  •        手动确认:选择报警记录后,点击手动确认。可以将报警记录的确认方式修改为手动确认。支持多选。

       上图中的查询结果描述如下:
        输入条件后点击“查询”按钮,查询相关信息并显示。表格默认先按未确认的优先显示,然后按报警时间降序排列。 点击表格表头后,可以按当前列进行升序或降序排列。
       表格内容如下:

  •        报警时间:报警的发生时间。
  •        报警等级:包括严重、 次要、 警告、提醒。
  •        采集服务器 IP:产生报警信息的服务器 IP。
  •        指标名称:发生报警的指标名称。
  •        报警错误信息:报警信息的具体内容。当鼠标移动到内容上时,会弹出提示框,显示全部报警信息。
  •        当前值:发生报警时,服务器的指标数值。
  •        报警类型:包括报警信息、恢复信息。其中恢复信息是指当服务器从报警状态恢复到正常状态时,统一监控推送的恢复信息。
  •        确认方式: 包括手动确认、 超时忽略、 未确认。服务器发生报警时的初始状态为未确认;管理员可以通过统一监控将报警信息确认,报警信息状态变为手动确认;如果当前时间减去报警发生时间的值,超过监控策略中设置的超时忽略时间,系统默认将报警信息的状态变为超时忽略。
  •        确认用户:手动确认状态的确认用户为操作统一监控的当前用户;超时忽略状态的确认用户为系统管理员。
  •        确认时间:手动确认状态的确认时间为用户手动确认的时间;超时忽略状态的
  •        确认时间为系统定时操作时的时间。  

邮件告警  

       添加用户时,可设置邮箱地址,用于接收统一监控的报警信息邮件。 

       

监控告警一般分几种类型 监控告警录像什么意思_南大通用_02

 

                                                                                     用户信息列表  

SNMP Trap 告警  

       统一监控提供 SNMP Trap 推送接口,当平台发现发现某个集群节点发生异常的时候,统一监控主动通过 SNMP Trap 方式把异常信息推送给第三方应用,这样第三方应用就可以实现对集群状态的统一监控。该功能默认不开启,需要在采集中心修改配置文件 conf/snmp_udp_config.properties。修改配置后,需要重新启动采集中心。
       当某个节点发生异常或异常恢复时,将推送以下 PDU 内容:

  •        1.3.6.1.4.1.39649.1.9999.1:发生告警的节点 IP。
  •        1.3.6.1.4.1.39649.1.9999.2:告警事件码,为统一监控内部定义。如为 GBase-09时,说明是 cpu 使用率突破阈值发生告警。
  •        1.3.6.1.4.1.39649.1.9999.3:告警事件描述,描述哪个节点的哪个监控项发生告警,或恢复告警。
  •        1.3.6.1.4.1.39649.1.9999.4:告警事件名称。如为 cpu_usage,说明是发生 CPU使用率的告警事件。
  •        1.3.6.1.4.1.39649.1.9999.5:告警级别,统一监控目前支持 4 种告警级别,有 1:严重; 2:次要; 3:警告; 4:提醒。
  •        1.3.6.1.4.1.39649.1.9999.6 : 告 警 发 生 时 间 : 默 认 时 间 格 式 : yyyy-mm-dd hh:mm:ss。
  •        1.3.6.1.4.1.39649.1.9999.7:告警类别: 0:恢复告警,说明当前告警事件为恢复告警; 1:故障告警:说明当前告警事件为故障告警。
  •        1.3.6.1.4.1.39649.1.9999.8:事件类型, 0:无恢复事件,说明该事件在故障恢复后不推送恢复信息; 1:有恢复事件,说明该事件在故障恢复后会推送恢复事件。
  •        1.3.6.1.4.1.39649.1.9999.9:事件中文名称,如 cpu_usage 监控项对应的中文名称是 CPU 使用率。
  •        1.3.6.1.4.1.39649.1.9999.10:发生告警事件的对象名称。如为 cpu 时,说明 cpu发生了告警。
  •        1.3.6.1.4.1.39649.1.9999.11:告警阈值,该值为在监控网站中设置的监控项的报警阈值。如 cpu_usage 的阈值默认为 80%,说明当 CPU 使用率超过 80%时报警。
  •        1.3.6.1.4.1.39649.1.9999.12:告警当前值,该值为告警监控项的当前值。如cpu_usage 的当前周期采集值为 90%。
  •        1.3.6.1.4.1.39649.1.9999.13:告警项当前值的单位,该值为在监控网站中设置的监控项的单位。如 CPU 使用率的单位为%。
  •        1.3.6.1.4.1.39649.1.9999.14:告警节点所属集群名称。

       推送信息默认采用 GBK 编码,如果需要修改编码格式,请在采集中心的conf/snmp_udp_config.properties 文件中修改 outputEncoding 属性。