目录

  • 阿里云监控
  • 一、CPU 相关监控项
  • 二、内存相关监控项
  • 三、系统平均负载监控项
  • 四、磁盘相关监控项
  • 五、文件系统监控项
  • 六、网络相关监控项
  • 七、进程相关监控项

阿里云监控

一、CPU 相关监控项

  • 可参考Linux的top命令来理解各项指标含义。

监控项名称

监控项含义

单位

说明

Host.cpu.idle

当前空闲CPU百分比

%

当前CPU处于空闲状态的百分比

Host.cpu.system

当前内核空间占用CPU百分比

%

指系统上下文切换的消耗,该监控项数值比较高,说明服务器开了太多的进程或者线程

Host.cpu.user

当前用户空间占用CPU百分比

%

用户进程对CPU的消耗

Host.cpu.iowait

当前等待IO操作的CPU百分比

%

该项数值比较高说明有很频繁的IO操作

Host.cpu.other

其他占用CPU百分比

%

其他消耗,计算方式为(Nice + SoftIrq + Irq + Stolen)的消耗

Host.cpu.totalUsed

当前消耗的总CPU百分比

%

指以上各项CPU消耗的总和,通常用于报警

二、内存相关监控项

  • 可参考free命令来理解各项指标含义。

监控项名称

监控项含义

单位

说明

Host.mem.total

内存总量

bytes

服务器的内存总量

Host.mem.used

已用内存量

bytes

用户程序使用的内存 + buffers + cached,buffers为缓冲区占用的内存空间,cached为系统缓存占用的内存空间

Host.mem.actualused

用户实际使用的内存

bytes

计算方法1. (used - buffers - cached)计算方法2. (total - available) Centos 7.2与Ubuntu 16.04以上(包含)的系统使用了新的Linux内核,在内存的估算上更准确, available这一列的具体含义可以参见内核的这个commit.

Host.mem.free

剩余内存量

bytes

计算方法:(total-used)

Host.mem.freeutilization

剩余内存百分比

%

计算方法:(available/total*100%)

Host.mem.usedutilization

内存使用率

%

计算方法:(actualused/total*100%)

三、系统平均负载监控项

  • 可参考Linux top命令来理解各项指标含义。监控项数值越高代表系统越繁忙。

监控项名称

监控项含义

单位

Host.load1

过去1分钟的系统平均负载,Windows操作系统没有此指标


Host.load5

过去5分钟的系统平均负载,Windows操作系统没有此指标


Host.load15

过去15分钟的系统平均负载,Windows操作系统没有此指标


四、磁盘相关监控项

  • 磁盘使用率与inode使用率可参考Linux df命令。
  • 磁盘读写指标可参考Linux iostat命令。

监控项名称

监控项含义

单位

Host.diskusage.used

磁盘的已用存储空间

bytes

Host.disk.utilization

磁盘使用率

%

Host.diskusage.free

磁盘的剩余存储空间

bytes

Host.diskussage.total

磁盘存储总量

bytes

Host.disk.readbytes

磁盘每秒读取的字节数

bytes/s

Host.disk.writebytes

磁盘每秒写入的字节数

bytes/s

Host.disk.readiops

磁盘每秒的读请求数量

次/秒

Host.disk.writeiops

磁盘每秒的写请求数量

次/秒

五、文件系统监控项

监控项名称

监控项含义

单位

说明

Host.fs.inode

inode使用率,UNIX/Linux系统内部使用inode号码来识别文件,磁盘还未存满,但inode已经分配完时会出现无法在磁盘新建文件的情况。

%

inode数量代表文件系统文件数量,大量小文件会导致inode使用率过高

六、网络相关监控项

  • 以下为网络相关指标,可参考Linux iftop。TCP连接数的采集,可参考Linux ss命令。
  • TCP连接数会默认采集 TCP_TOTAL(总连接数)、ESTABLISHED(正常连接状态),NON_ESTABLISHED(非连接的状态连接数,ESTABLISHED以外的所有状态),如果您需要获取各个状态连接数的数量,请按如下说明操作:
  • Linux

将cloudmonitor/config/conf.properties配置文件的netstat.tcp.disable改为false来开启采集。修改配置后请重启Agent。

监控项名称

监控项含义

单位

Host.netin.rate

网卡每秒接收的比特数,即网卡的上行带宽

bits/s

Host.netout.rate

网卡每秒发送的比特数,即网卡的下行带宽

bits/s

Host.netin.packages

网卡每秒接收的数据包数

个/秒

Host.netout.packages

网卡每秒发送的数据包数

个/秒

Host.netin.errorpackage

设备驱动器检测到的接收错误包的数量

个/秒

Host.netout.errorpackages

设备驱动器检测到的发送错误包的数量

个/秒

Host.tcpconnection

各种状态下的TCP连接数包括LISTEN、SYN_SENT、ESTABLISHED、SYN_RECV、FIN_WAIT1、CLOSE_WAIT、FIN_WAIT2、LAST_ACK、TIME_WAIT、CLOSING、CLOSED

七、进程相关监控项

  • 进程的CPU使用率、内存使用率可参考Linux top命令,CPU使用率为多核使用情况。
  • Host.process.openfile 可参考Linux lsof命令。
  • Host.process.number 可参考Linux ps aux |grep ‘关键字’ 命令

监控项名称

监控项含义

单位

Host.process.cpu

某个进程消耗的CPU百分比

%

Host.process.memory

某个进程消耗的内存百分比

%

Host.process.openfile

当前进程打开文件数


Host.process.number

指定关键字的进程数


Don't forget the beginner's mind