一、top命令


  top命令是一个功能十分强大的监控系统的工具,对于系统管理员而言尤其重要。但是,它的缺点是会消耗很多系统资源。



  在系统维护的过程中,随时可能有需要查看 CPU 使用率,并根据相应信息分析系统状况的需要。在 CentOS 中,可以通过 top 命令来查看 CPU 使用状况。运行 top 命令后,CPU 使用状态会以全屏的方式显示,并且会处在对话的模式 -- 用基于 top 的命令,可以控制显示方式等等。退出 top 的命令为 q (在 top 运行中敲 q 键一次)。



二、top输出说明

zabbix监控windows系统CPU使用率采集 实时监控cpu使用率_物理内存

  在命令行中输入 “top”

  即可启动 top

top 的全屏对话模式可分为3部分:系统信息栏、命令输入栏、进程列表栏。

第一部分 -- 最上部的 系统信息栏 :

  第一行(top):

zabbix监控windows系统CPU使用率采集 实时监控cpu使用率_java_02

    “14:53:56”为系统当前时刻;

    “up28 days”为系统启动后到现在的运作时间;

    “2 users”为当前登录到系统的用户,更确切的说是登录到用户的终端数 -- 同一个用户同一时间对系统多个终端的连接将被视为多个用户连接到系统,这里的用户数也将表现为终端的数目;

    “load average”为当前系统负载的平均值,后面的三个值分别为1分钟前、5分钟前、15分钟前进程的平均数,一般的可以认为这个数值超过 CPU 数目时,CPU 将比较吃力的负载当前系统所包含的进程;

  第二行(Tasks):

zabbix监控windows系统CPU使用率采集 实时监控cpu使用率_Java_03

    “300 total”为当前系统进程总数;

    “1 running”为当前运行中的进程数;

    “299 sleeping”为当前处于等待状态中的进程数;

    “0 stoped”为被停止的系统进程数;

    “0 zombie”为僵尸进程数;

  第三行(Cpus):

zabbix监控windows系统CPU使用率采集 实时监控cpu使用率_Java_04

    分别表示了 CPU 当前的使用率;

    29.9% us  用户空间占用CPU百分比  
    0.6% sy  内核 空间占用CPU百分比  
    0.0% ni  用户进程空间内改变过优先级的进程占用CPU百分比  
    69.4% id  空闲CPU百分比  
    0.0% wa  等待输入输出的CPU时间百分比  
    0.0% hi     
    0.0% si    

  第四行(Mem):

zabbix监控windows系统CPU使用率采集 实时监控cpu使用率_操作系统_05

    分别表示了内存总量、当前使用量、空闲内存量、以及缓冲使用中的内存量;    

    Mem: 65973244k total  物理内存总量  

       12989152k used  使用的物理内存总量  
       52984092k free  空闲内存总量  
       171008k buffers  用作内核缓存 的内存量  

  第五行(Swap):

zabbix监控windows系统CPU使用率采集 实时监控cpu使用率_运维_06

    表示类别同第四行(Mem),但此处反映着交换分区(Swap)的使用情况。通常,交换分区(Swap)被频繁使用的情况,将被视作物理内存不足而造成的。

    Swap: 5242876 total  交换区总量  
    0k used  使用的交换区总量  
    5242876k free  空闲交换区总量  
    3471944k cached  缓冲的交换区总量。
           内存中的内容被换出到交换区,而后又被换入到内存,但使用过的交换区尚未被覆盖,该数值即为这些内容已存在于内存中的交换区的大小。相应的内存再次被换出时可不必再对交换区写入。

第二部分 -- 中间部分的内部命令提示栏

zabbix监控windows系统CPU使用率采集 实时监控cpu使用率_操作系统_07

  top 运行中可以通过 top 的内部命令对进程的显示方式进行控制。内部命令如下表:

  s - 改变画面更新频率

  l - 关闭或开启第一部分第一行 top 信息的表示

  t - 关闭或开启第一部分第二行 Tasks 和第三行 Cpus 信息的表示

  m - 关闭或开启第一部分第四行 Mem 和 第五行 Swap 信息的表示

  N - 以 PID 的大小的顺序排列表示进程列表(第三部分后述)

P - 以 CPU 占用率大小的顺序排列进程列表 (第三部分后述)

  M - 以内存占用率大小的顺序排列进程列表 (第三部分后述)

  h - 显示帮助

  n - 设置在进程列表所显示进程的数量

  q - 退出 top

第三部分 -- 最下部分的进程列表栏:

zabbix监控windows系统CPU使用率采集 实时监控cpu使用率_物理内存_08

以 PID 区分的进程列表将根据所设定的画面更新时间定期的更新。通过 top 内部命令可以控制此处的显示方式。

注意的字段说明:

VIRT:virtual memory usage 虚拟内存

(根据公式 VIRT = SWAP + RES

1、进程“需要的”虚拟内存大小,包括进程使用的库、代码、数据等
2、假如进程申请100m的内存,但实际只使用了10m,那么它会增长100m,而不是实际的使用量

RES:resident memory usage 常驻内存
1、进程当前使用的内存大小,但不包括swap out
2、包含其他进程的共享
3、如果申请100m的内存,实际使用10m,它只增长10m,与VIRT相反
4、关于库占用内存的情况,它只统计加载的库文件所占内存大小

SHR:shared memory 共享内存
1、除了自身进程的共享内存,也包括其他进程的共享内存
2、虽然进程只使用了几个共享库的函数,但它包含了整个共享库的大小
3、计算某个进程所占的物理内存大小公式:RES – SHR
4、swap out后,它将会降下来

DATA
1、数据占用的内存。如果top没有显示,按f键可以显示出来。
2、真正的该程序要求的数据空间,是真正在运行中要使用的。

 

三、关键信息

OS 诊断

OS 的诊断主要关注的是 CPU、Memory、I/O 三个方面。

CPU 诊断

对于 CPU 主要关注平均负载(Load Average),CPU 使用率,上下文切换次数(Context Switch)。

zabbix监控windows系统CPU使用率采集 实时监控cpu使用率_操作系统_09

平均负载有三个数字:63.66,58.39,57.18,分别表示过去 1 分钟、5 分钟、15 分钟机器的负载。按照经验,若数值小于 0.7*CPU 个数,则系统工作正常;若超过这个值,甚至达到 CPU 核数的四五倍,则系统的负载就明显偏高。图 2 中 15 分钟负载已经高达 57.18,1 分钟负载是 63.66(系统为 16 核),说明系统出现负载问题,且存在进一步升高趋势,需要定位具体原因了。

通过 vmstat 命令可以查看 CPU 的上下文切换次数见《Linux vmstat命令--监控CPU 性能分析》

Memory

从操作系统角度,内存关注应用进程是否足够,可以使用 free –m 命令查看内存的使用情况。通过 top 命令可以查看进程使用的虚拟内存 VIRT 和物理内存 RES,根据公式 VIRT = SWAP + RES 可以推算出具体应用使用的交换分区(Swap)情况,使用交换分区过大会影响 Java 应用性能,可以将 swappiness 值调到尽可能小。因为对于 Java 应用来说,占用太多交换分区可能会影响性能,毕竟磁盘性能比内存慢太多。

I/O

I/O 包括磁盘 I/O 和网络 I/O,一般情况下磁盘更容易出现 I/O 瓶颈。通过 iostat 可以查看磁盘的读写情况,通过 CPU 的 I/O wait 可以看出磁盘 I/O 是否正常。如果磁盘 I/O 一直处于很高的状态,说明磁盘太慢或故障,成为了性能瓶颈,需要进行应用优化或者磁盘更换。