IoT云产品运行监控
1.监控告警功能介绍[](#i0bcvd)
IoT物联网平台对接云监控的监控指标分为两大类:系统事件报警和阈值报警。系统事件报警以IoT物联网平台的性能指标为主;阈值报警以客户业务指标数值变化为主。
2.IoT物联网平台监控配置实战
2.1 系统事件报警
阿里云IoT物联网平台作为一款公有云产品,对设备连接频率,数据上报频率,下行指令频率,消息流转频率等指标都有使用限制约定。比如下图所展示部分使用限制:
完整产品使用限制文档,请参阅:https://help.aliyun.com/document_detail/30527.html
当我们使用IoT物联网平台时,一旦触发了使用限制条件,就会被限流,影响我们业务正常运行。结合云监控产品我们就可以第一时间感知到异常,以便做相应业务调整。
云监控中对接的IoT物联网平台的系统事件有如下几种:
- 当前账号每秒最大连接请求数达到上限
- 当前账号每秒发布请求数达到上限
- 当前账号每秒到达规则引擎的请求数达到上限
- 当前账号每秒发给设备的请求数达到上限
- 任一设备上行消息QPS达到上限
- 任一设备下行消息QPS达到上限
我们进入云监控控制台,左侧导航栏找到事件监控,然后点击报警规则标签,在系统事件下,点击创建事件报警按钮。详细配置如下:
点击确定,我们就创建了一条监控告警规则。
2.2 阈值报警
IoT物联网平台和云监控对接的阈值报警指标如下:
设备在线相关:
- 实时在线设备数(MQTT)
物模型通信相关:
- 设备事件上报失败数
- 设备属性上报失败数
- 设备属性设置失败数
- 设备服务调用失败数
规则引擎流转相关:
- 规则引擎消息流转次数(DATAHUB)
- 规则引擎消息流转次数(FC)
- 规则引擎消息流转次数(MNS)
- 规则引擎消息流转次数(MQ)
- 规则引擎消息流转次数(OTS)
- 规则引擎消息流转次数(RDS)
- 规则引擎消息流转次数(REPUBLISH)
- 规则引擎消息流转次数(TSDB)
上行消息相关:
- 发送到平台的消息量(MQTT)
- 发送到平台的消息量(CoAP)
- 发送到平台的消息量(HTTP)
- 发送到平台的消息量(HTTP/2)
- 发送到平台的消息量(LoRa)
下行消息相关:
- 平台发出的消息量(MQTT)
- 平台发出的消息量(HTTP/2)
- 平台发出的消息量(LoRa)
我们进入云监控控制台,左侧导航栏找到报警服务,然后点击报警规则,在阈值报警下,点击创建报警规则按钮。参考如下:
首先,选择产品物联网平台,根据业务选择资源范围和具体监控的产品实例。
其次,我们需要配置报警规则触发条件。比如下图:以1分钟为维度,统计在线设备数量。当连续3次统计设备数量都小于15000时,就触发业务告警。
最后,我们配置告警接收人和通知方式。云监控默认可以支持电话,短信,邮件,钉钉群机器人等多种通知方式。也可以通过配置webhook的方式,触发客户业务回调函数。
阈值告警配置成功后,我们就可以在列表里看到已经生效的告警规则,查看告警历史。