文章目录


01 前言

监控功能可以为整个云管平台提供可靠的运行保障,支持对物理机、云主机、存储、网络、数据库、中间件、云服务提供细粒度监控,支持实时监控,支持历史数据查询与趋势分析。

TStack运维笔记(10)- 监控管理_服务器

02 硬件监控

提供物理服务器硬件监控透视图,运维人员或管理人员能够直观了解当前所有物理节点的各个硬件健康指标,无需频繁出入机房。当服务器发生故障时,服务器健康状态显示为异常。

TStack运维笔记(10)- 监控管理_服务器_02

节点

CPU

内存

磁盘

网卡

电源

风扇

还可以修改机柜名称:

TStack运维笔记(10)- 监控管理_运维_03

修改机柜位置信息:

TStack运维笔记(10)- 监控管理_云主机_04

03 资源监控

在总览页面查看各类资源的使用率。支持根据不同的数据中心,不同的对象(物理机、云主机)的Top3、Top5、Top10的当前资源使用率排名。支持查询实时和历史监控信息。

TStack运维笔记(10)- 监控管理_服务器_05

04 服务监控

① 云系统服务:对云管平台底层服务进行监控,检查各节点上服务的健康状态

TStack运维笔记(10)- 监控管理_运维_06

② 数据库监控

TStack运维笔记(10)- 监控管理_运维_07

③ 消息队列

TStack运维笔记(10)- 监控管理_云主机_08

TStack运维笔记(10)- 监控管理_服务器_09

④ 缓存

TStack运维笔记(10)- 监控管理_运维_10

05 告警管理

用户可结合自身应用系统的关键特性,自定义监控项和告警阈值,并设置邮件/微信形式告警,充分保证整个云管平台的可靠性。

TStack运维笔记(10)- 监控管理_数据库_11

同时也可以新建告警模板:

TStack运维笔记(10)- 监控管理_云主机_12

添加规则:

TStack运维笔记(10)- 监控管理_数据库_13