一、top命令详解

top命令是Linux下常用的性能分析工具,能够实时显示系统中各个进程的资源占用状况,类似于Windows的任务管理器。

top显示系统当前的进程和其他状况,是一个动态显示过程,即可以通过用户按键来不断刷新当前状态.如果在前台执行该命令,它将独占前台,直到用户 终止该程序为止. 比较准确的说,top命令提供了实时的对系统处理器的状态监视.它将显示系统中CPU最“敏感”的任务列表.该命令可以按CPU使用.内存使用和执行时间 对任务进行排序;而且该命令的很多特性都可以通过交互式命令或者在个人定制文件中进行设定.

1.参数含义

top - 01:06:48 up  1:22,  1 user,  load average: 0.06, 0.60, 0.48

Tasks:  29 total,   1 running,  28 sleeping,   0 stopped,   0 zombie

Cpu(s):  0.3% us,  1.0% sy,  0.0% ni, 98.7% id,  0.0% wa,  0.0% hi,  0.0% si

Mem:    191272k total,   173656k used,    17616k free,    22052k buffers

Swap:   192772k total,        0k used,   192772k free,   123988k cached

PID USER      PR  NI  VIRT  RES  SHR S %CPU %MEM    TIME+  COMMAND

1379 root      16   0  7976 2456 1980 S  0.7  1.3   0:11.03 sshd

14704 root      16   0  2128  980  796 R  0.7  0.5   0:02.72 top

1 root      16   0  1992  632  544 S  0.0  0.3   0:00.90 init

2 root      34  19     0    0    0 S  0.0  0.0   0:00.00 ksoftirqd/0

3 root      RT   0     0    0    0 S  0.0  0.0   0:00.00 watchdog/0

统计信息区前五行是系统整体的统计信息。第一行是任务队列信息,同 uptime 命令的执行结果。其内容如下:

01:06:48    当前时间

up 1:22    系统运行时间,格式为时:分

1 user    当前登录用户数

load average: 0.06, 0.60, 0.48    系统负载,即任务队列的平均长度。三个数值分别为 1分钟、5分钟、15分钟前到现在的平均值。

第二、三行,为进程和CPU的信息。当有多个CPU时,这些内容可能会超过两行。内容如下:

total 进程总数

running 正在运行的进程数

sleeping 睡眠的进程数

stopped 停止的进程数

zombie 僵尸进程数

Cpu(s):

0.3% us 用户空间占用CPU百分比

1.0% sy 内核空间占用CPU百分比

0.0% ni 用户进程空间内改变过优先级的进程占用CPU百分比

98.7% id 空闲CPU百分比

0.0% wa 等待输入输出的CPU时间百分比

0.0%hi:硬件CPU中断占用百分比

0.0%si:软中断占用百分比

0.0%st:虚拟机占用百分比

最后两行为内存信息。内容如下:

Mem:

191272k total    物理内存总量

173656k used    使用的物理内存总量

17616k free    空闲内存总量

22052k buffers    用作内核缓存的内存量

Swap:

192772k total    交换区总量

0k used    使用的交换区总量

192772k free    空闲交换区总量

123988k cached    缓冲的交换区总量,内存中的内容被换出到交换区,而后又被换入到内存,但使用过的交换区尚未被覆盖,该数值即为这些内容已存在于内存中的交换区的大小,相应的内存再次被换出时可不必再对交换区写入。

进程信息区统计信息区域的下方显示了各个进程的详细信息。首先来认识一下各列的含义。

序号  列名    含义

a    PID     进程id

b    PPID    父进程id

c    RUSER   Real user name

d    UID     进程所有者的用户id

e    USER    进程所有者的用户名

f    GROUP   进程所有者的组名

g    TTY     启动进程的终端名。不是从终端启动的进程则显示为 ?

h    PR      优先级

i    NI      nice值。负值表示高优先级,正值表示低优先级

j    P       最后使用的CPU,仅在多CPU环境下有意义

k    %CPU    上次更新到现在的CPU时间占用百分比

l    TIME    进程使用的CPU时间总计,单位秒

m    TIME+   进程使用的CPU时间总计,单位1/100秒

n    %MEM    进程使用的物理内存百分比

o    VIRT    进程使用的虚拟内存总量,单位kb。VIRT=SWAP+RES

p    SWAP    进程使用的虚拟内存中,被换出的大小,单位kb。

q    RES     进程使用的、未被换出的物理内存大小,单位kb。RES=CODE+DATA

r    CODE    可执行代码占用的物理内存大小,单位kb

s    DATA    可执行代码以外的部分(数据段+栈)占用的物理内存大小,单位kb

t    SHR     共享内存大小,单位kb

u    nFLT    页面错误次数

v    nDRT    最后一次写入到现在,被修改过的页面数。

w    S       进程状态(D=不可中断的睡眠状态,R=运行,S=睡眠,T=跟踪/停止,Z=僵尸进程)

x    COMMAND 命令名/命令行

y    WCHAN   若该进程在睡眠,则显示睡眠中的系统函数名

z    Flags   任务标志,参考 sched.h

默认情况下仅显示比较重要的 PID、USER、PR、NI、VIRT、RES、SHR、S、%CPU、%MEM、TIME+、COMMAND 列。可以通过下面的快捷键来更改显示内容。

更改显示内容通过 f 键可以选择显示的内容。按 f 键之后会显示列的列表,按 a-z 即可显示或隐藏对应的列,最后按回车键确定。

按 o 键可以改变列的显示顺序。按小写的 a-z 可以将相应的列向右移动,而大写的 A-Z 可以将相应的列向左移动。最后按回车键确定。

按大写的 F 或 O 键,然后按 a-z 可以将进程按照相应的列进行排序。而大写的 R 键可以将当前的排序倒转。

二、 系统负载

1 .uptime -V 用来查询版本的

procps是一个实用程序包,主要包括ps top kill等程序主要用来显示与控制一些系统信息,进程状态之类的内容。

以下显示输入uptime的信息:

04:03:58 up 10 days, 13:19, 1 user, load average: 0.54, 0.40, 0.20

当前时间 04:03:58

系统已运行的时间 10 days, 13:19

当前在线用户 1 user

平均负载:0.54, 0.40, 0.20,最近1分钟、5分钟、15分钟系统的负载

linux下的loadavg真是内容十分丰富,现在加强学习如下:

1 uptime后,结果的分析如下:

7:51pm up 2 days, 5:43, 2 users,loadaverage: 8.13, 5.90, 4.94

9/84 5662

命令输出的最后内容表示在过去的1、5、15分钟内运行队列中的平均进程数量。

一般来说只要每个CPU的当前活动进程数不大于3那么系统的性能就是良好的,如果每个CPU的任务数大于5,那么就表示这台机器的性能有严重问题。对于上面的例子来说,假设系统有两个CPU,那么其每个CPU的当前任务数为:8.13/2=4.065。这表示该系统的性能是可以接受的。

系统平均负载被定义为在特定时间间隔内运行队列中的平均进程数。如果一个进程满足以下条件则其就会位于运行队列中:

它没有在等待I/O操作的结果

它没有主动进入等待状态(也就是没有调用wait)

没有被停止(例如:等待终止)

2 ps aux结合

运行 ps aux 的到如下信息:

ps aux

USER    PID %CPU %MEM VSZ   RSS TTY    STAT START TIME COMMAND

....................................

stat 中的参数意义如下:

D 不可中断 Uninterruptible(usually IO)

R 正在运行,或在队列中的进程

S 处于休眠状态

T 停止或被追踪

Z 僵尸进程

W 进入内存交换(从内核2.6开始无效)

X   死掉的进程

< 高优先级

n   低优先级

s   包含子进程

+   位于后台的进程组

使用ps找出这两种状态的进程数

ps aux |awk '{print $8}' |grep ' [D|R] '|wc -l

3.僵尸进程

使用top查看服务器负载的时候,发现了zombie(简单理解成僵尸吧)这个参数。

一个进程在调用exit命令结束自己的生命的时候,其实它并没有真正的被销毁,而是留下一个称为僵尸进程(Zombie)的数据结构(系统调用exit, 它的作用是使进程退出,但也仅仅限于将一个正常的进程变成一个僵尸进程,并不能将其完全销毁)。

如何找到僵尸进程的相关信息呢?

1). ps -e -o stat,ppid,pid,cmd|egrep '^[Zz]'

ps:ps命令用于获取当前系统的进程信息.-e:参数用于列出所有的进程-o:参数用于设定输出格式,这里只输出进程的stat(状态信息)、ppid(父进程pid)、pid(当前进程的pid),cmd(即进程的可执行文件。egrep:是linux下的正则表达式工具'^[Zz]':这是正则表达式,^表示第一个字符的位置,[Zz],表示z或者大写的Z字母,即表示第一个字符为Z或者z开头的进程数据,只所以这样是因为僵尸进程的状态信息以Z或者z字母开头。

2).    ps -ef | grep "defunct"

大多数linux系统,也会将僵尸进程标识为defunct

找到之后,就可以通过kill -9来终止父线程了(记得是父线程)。

三、Linux系统中的load average

1. load average 定义

linux系统中的Load对当前CPU工作量的度量。简单的说是进程队列的长度。

Load Average 就是一段时间 (1 分钟、5分钟、15分钟) 内平均 Load 。

通过系统命令"w"查看当前load average情况

上边0.31,0.30,0.31表示

第一位0.31:表示最近1分钟平均负载

第二位0.30:表示最近5分钟平均负载

第三位0.31:表示最近15分钟平均负载

注:linux系统是5秒钟进行一次Load采样

2. load average值的含义

1) 单核处理器

假设我们的系统是单CPU单内核的,把它比喻成是一条单向马路,把CPU任务比作汽车。当车不多的时候,load <1;当车占满整个马路的时候 load=1;当马路都站满了,而且马路外还堆满了汽车的时候,load>1

2) 多核处理器

我们经常会发现服务器Load > 1但是运行仍然不错,那是因为服务器是多核处理器(Multi-core)。

假设我们服务器CPU是2核,那么将意味我们拥有2条马路,我们的Load = 2时,所有马路都跑满车辆。

注:查看cpu 核数命令:

grep 'model name' /proc/cpuinfo | wc -l

3. 什么样的Load average值要提高警惕

0.7 < load < 1: 此时是不错的状态,如果进来更多的汽车,你的马路仍然可以应付。

load = 1: 你的马路即将拥堵,而且没有更多的资源额外的任务,赶紧看看发生了什么吧。

load > 5: 非常严重拥堵,我们的马路非常繁忙,每辆车都无法很快的运行

4. 三种Load值,应该看哪个

通常我们先看15分钟load,如果load很高,再看1分钟和5分钟负载,查看是否有下降趋势。

1分钟负载值 > 1,那么我们不用担心,但是如果15分钟负载都超过1,我们要赶紧看看发生了什么事情。所以我们要根据实际情况查看这三个值。