iostat

       iostat主要用于监控系统设备的IO负载情况、IO统计工具,iostat首次运行时显示自系统启动开始的各项统计信息,之后运行iostat将显示自上次运行该命令以后的统计信息。用户可以通过指定统计的次数和时间来获得所需的统计信息。

[root@localhost app]# yum list|grep iostat
pcp-import-iostat2pcp.x86_64                3.11.8-7.el7               base   
[root@localhost app]# yum -y install pcp-import-iostat2pcp
[root@localhost app]# iostat
Linux 3.10.0-514.el7.x86_64 (localhost.localdomain) 	10/24/2017 	_x86_64_	(1 CPU)

avg-cpu:  %user   %nice %system %iowait  %steal   %idle
           0.44    0.00    0.30    0.04    0.00   99.22

Device:            tps    kB_read/s    kB_wrtn/s    kB_read    kB_wrtn
sda               0.43         9.55        14.19     737417    1095615
scd0              0.00         0.00         0.00         44          0

[root@localhost app]#

各个输出项目的含义如下:

avg-cpu段:总体cpu使用情况统计信息,对于多核cpu,这里为所有cpu的平均值

    %user: 在用户级别运行所使用的CPU的百分比.

    %nice: nice操作所使用的CPU的百分比.

    %sys: 在系统级别(kernel)运行所使用CPU的百分比.

    %iowait: CPU等待硬件I/O时,所占用CPU百分比.它指示cpu用于等待io请求完成的时间,主要看iowait的值。%iowait并不能反应磁盘瓶颈,iowait实际测量的是cpu时间: %iowait = (cpu idle time)/(all cpu time)

    %idle: CPU空闲时间的百分比.小于70% IO压力就较大了,一般读取速度有较多的wait。

Device段:各磁盘设备的IO统计信息

    tps:每秒进程下发的IO读、写请求数量,该设备每秒的传输次数(Indicate the number of transfers per second that were issued to the device.)。"一次传输"意思是"一次I/O请求"。多个逻辑请求可能会被合并为"一次I/O请求"。"一次传输"请求的大小是未知的。

    kB_read/s:每秒从设备(drive expressed)读取的block数据量(一扇区为512bytes),单位为K;

    kB_wrtn/s:每秒向设备(drive expressed)写入的block数据量,单位为K

    kB_read:读取的block总数据量,单位为K

    kB_wrtn:写入的block总数量数据量,单位为K


语法

    iostat [options] [interval [count]]

参数

       -d [facility]表示,显示设备(磁盘)使用状态,默认监控所有的硬盘设备,可以指定某一设备,如-d sda。;

       -k某些使用block为单位的列强制使用Kilobytes为单位,默认单位块

       -m 某些使用block为单位的列强制使用MB为单位,默认单位块

[root@localhost app]# iostat -d -k 1 3  #没1秒一次 刷新3次磁盘的使用状态
Linux 3.10.0-514.el7.x86_64 (localhost.localdomain) 	10/25/2017 	_x86_64(1 CPU)

Device:            tps    kB_read/s    kB_wrtn/s    kB_read    kB_wrtn
fd0               0.00         0.00         0.00          4          0
sda               0.26         4.66         7.25     746585    1161425
scd0              0.00         0.00         0.00         44          0

Device:            tps    kB_read/s    kB_wrtn/s    kB_read    kB_wrtn
fd0               0.00         0.00         0.00          0          0
sda               0.00         0.00         0.00          0          0
scd0              0.00         0.00         0.00          0          0

Device:            tps    kB_read/s    kB_wrtn/s    kB_read    kB_wrtn
fd0               0.00         0.00         0.00          0          0
sda               0.00         0.00         0.00          0          0
scd0              0.00         0.00         0.00          0          0

[root@localhost app]# iostat -d -k 1 
Linux 3.10.0-514.el7.x86_64 (localhost.localdomain) 	10/25/2017 	_x86_64(1 CPU)

Device:            tps    kB_read/s    kB_wrtn/s    kB_read    kB_wrtn
fd0               0.00         0.00         0.00          4          0
sda               0.26         4.66         7.25     746585    1161490
scd0              0.00         0.00         0.00         44          0

Device:            tps    kB_read/s    kB_wrtn/s    kB_read    kB_wrtn
fd0               0.00         0.00         0.00          0          0
sda               0.00         0.00         0.00          0          0
scd0              0.00         0.00         0.00          0          0

^C
[root@localhost app]# iostat -d sda 1 4
Linux 3.10.0-514.el7.x86_64 (localhost.localdomain) 	10/25/2017 	_x86_64(1 CPU)

Device:            tps    kB_read/s    kB_wrtn/s    kB_read    kB_wrtn
sda               0.26         4.66         7.25     746585    1161502

Device:            tps    kB_read/s    kB_wrtn/s    kB_read    kB_wrtn
sda               1.01         0.00         1.01          0          1

Device:            tps    kB_read/s    kB_wrtn/s    kB_read    kB_wrtn
sda               0.00         0.00         0.00          0          0

Device:            tps    kB_read/s    kB_wrtn/s    kB_read    kB_wrtn
sda               0.00         0.00         0.00          0          0

[root@localhost app]#

-x 显示和io相关的扩展数据

[root@localhost app]# iostat -d sda -x -k 1 1
Linux 3.10.0-514.el7.x86_64 (localhost.localdomain) 	10/25/2017 	_x86_64_	(1 CPU)

Device:         rrqm/s   wrqm/s     r/s     w/s    rkB/s    wkB/s avgrq-sz avgqu-sz   await r_await w_await  svctm  %util
sda               0.02     0.11    0.12    0.14    0 4.62     7.19    90.47     0.01   26.45   11.86   38.50   2.43   0.06

[root@localhost ~]# iostat -x
Linux 3.10.0-327.el7.x86_64 (localhost.localdomain) 	01/09/2018 	_x86_64_	(8 CPU)

avg-cpu:  %user   %nice %system %iowait  %steal   %idle
           0.06    0.00    0.02    0.00    0.00   99.92

Device:         rrqm/s   wrqm/s     r/s     w/s    rkB/s    wkB/s avgrq-sz avgqu-sz   await r_await w_await  svctm  %util
sda               0.00     0.00    0.00    0.19     0.20     1.72    19.47     0.00    0.42    2.51    0.36   0.37   0.01

[root@localhost ~]#

rrqm/s:每秒这个设备相关的读取请求有多少被Merge了(当系统调用需要读取数据的时候,VFS将请求发到各个FS,如果FS发现不同的读取请求读取的是相同Block的数据,FS会将这个请求合并Merge);

wrqm/s:每秒这个设备相关的写入请求有多少被Merge了。

rsec/s:每秒读取的扇区数;

wsec/:每秒写入的扇区数。

rKB/s:The number of read requests that were issued to the device per second,单位为K

wKB/s:The number of write requests that were issued to the device per second,单位为K;

r/s 和 w/s 分别是每秒的读操作和写操作,而rKB/s 和wKB/s 列以每秒千字节为单位显示了读和写的数据量 如果这两对数据值都很高的话说明磁盘io操作是很频繁。

avgrq-sz 平均请求扇区的大小,单位是扇区

avgqu-sz 是平均请求队列的长度。毫无疑问,队列长度越短越好。    

await:  每一个IO请求的处理的平均时间(单位是毫秒),这里可以理解为IO的响应时间,一般地系统IO响应时间应该低于5ms,如果大于10ms就比较大了。

              这个时间包括了队列时间和服务时间,也就是说,一般情况下,await大于svctm,它们的差值越小,则说明队列时间越短,反之差值越大,队列时间越长,说明系统出了问题。

svctm    表示平均每次设备I/O操作的服务时间(以毫秒为单位)。如果svctm的值与await很接近,表示几乎没有I/O等待,磁盘性能很好,如果await的值远高于svctm的值,则表示I/O队列等待太长, 系统上运行的应用程序将变慢。svctm一项正常时间在20ms左右(一次读写就是一次寻到+一次旋转延迟+数据传输的时间。由于,现代硬盘数据传输就是几微秒或者几十微秒的事情,远远小于寻道时间2~20ms和旋转延迟4~8ms,所以只计算这两个时间就差不多了,也就是15~20ms。只要大于20ms,就必须考虑是否交给磁盘读写的次数太多,导致磁盘性能降低了)

正常情况下svctm应该是小于await值的,而svctm的大小和磁盘性能有关,CPU、内存的负荷也会对svctm值造成影响,过多的请求也会间接的导致svctm值的增加。

await值的大小一般取决与svctm的值和I/O队列长度以及I/O请求模式,如果svctm的值与await很接近,表示几乎没有I/O等待,磁盘性能很好,如果await的值远高于svctm的值,则表示I/O队列等待太长,系统上运行的应用程序将变慢,此时可以通过更换更快的硬盘来解决问题。


%util: 在统计时间内所有处理IO时间,除以总共统计时间,util = (r/s+w/s) * (svctm/1000),util=(0.12+0.14)*(2.43/1000)=0.0006318,所以该参数暗示了设备的繁忙程度,即一秒中有百分之多少的时间用于 I/O 操作,或者说一秒中有多少时间 I/O 队列是非空的

。一般地,如果该参数是100%表示设备已经接近满负荷运行了(当然如果是多磁盘,即使%util是100%,因为磁盘的并发能力,所以磁盘使用未必就到了瓶颈)。

如果 %util 接近 100%,说明产生的I/O请求太多,I/O系统已经满负荷,该磁盘可能存在瓶颈。 idle小于70% IO压力就较大了,一般读取速度有较多的wait.


-p device | ALL

  与-x选项互斥,用于显示块设备及系统分区的统计信息.也可以在-p后指定一个设备名,如:

  # iostat -p hda

  或显示所有设备

  # iostat -p ALL


-c 获取cpu部分状态值

-t    在输出数据时,打印搜集数据的时间.

-V    打印版本号和帮助信息.


top 命令

    blob.png

Tasks:

total 进程总数

running 正在运行的进程数

sleeping 睡眠的进程数

stopped 停止的进程数

zombie 僵尸进程数


Cpu(s):

us 用户空间占用CPU百分比

sy 内核空间占用CPU百分比

ni 用户进程空间内改变过优先级的进程占用CPU百分比

id 空闲CPU百分比

wa 等待输入输出的CPU时间百分比

wa 的百分比可以大致的体现出当前的磁盘io请求是否频繁。如果 wa的数量比较大,说明等待输入输出的的io比较多。


vmstat

        vmstat 命令报告关于线程、虚拟内存、磁盘、陷阱和 CPU 活动的统计信息。由 vmstat 命令生成的报告可以用于平衡系统负载活动。系统范围内的这些统计信息(所有的处理器中)都计算出以百分比表示的平均值,或者计算其总和。

blob.png

格式: vmstat [-V] [-n] [-S unit] [delay [count]]

参数解释:

-V:显示vmstat版本信息

-n:只在开始时显示一次各字段名称

-a:显示活跃和非活跃内存

-d:显示各个磁盘相关统计信息

-D:显示磁盘总体信息

-p:显示指定磁盘分区统计信息

-s:显示内存相关统计信息及多种系统活动数量

-m:显示slabinfo

-t:在输出信息的时候也将时间一并输出出来

-S:使用指定单位显示。参数有k、K、m、M,分别代表1000、1024、1000000、1048576字节(byte)。默认单位为K(1024bytes)

delay:刷新时间间隔。如果不指定,只显示一条结果

count:刷新次数。如果不指定刷新次数,但指定了刷新时间间隔,这时刷新次数为无穷


r  表示运行队列(就是说多少个进程真的分配到CPU),当这个值超过了CPU数目,就会出现CPU瓶颈了。

b 表示阻塞的进程,在等待资源的进程数,比如正在等待I/O或者内存交换等。

swpd 虚拟内存已使用的大小(单位KB),

free   空闲的物理内存的大小(单位KB),

buff   Linux/Unix系统是用来存储(单位KB)目录里面有什么内容,权限等的缓存,

cache cache直接用来记忆我们打开的文件,给文件做缓冲,把空闲的物理内存的一部分拿来做文件和目录的缓存,是为了提高程序执行的性能,当程序使用内存时,buffer/cached会很快地被使用。)

si  每秒从磁盘读入虚拟内存的大小(单位:KB/秒),如果这个值大于0,表示物理内存不够用或者内存泄露了,要查找耗内存进程解决掉。我的机器内存充裕,一切正常。

so  每秒虚拟内存写入磁盘的大小(单位:KB/秒),如果这个值大于0,同上。

bi 块设备每秒接收的块数量,单位kb/s,这里的块设备是指系统上所有的磁盘和其他块设备,默认块大小是1024byte,

bo 块设备每秒发送的块数量,单位kb/s,例如我们读取文件,bo就要大于0。bi和bo一般都要接近0,不然就是IO过于频繁,需要调整。

注意:如果bi+bo的值过大,且wa值较大,则表示系统磁盘IO瓶颈


in 每秒CPU的中断次数,包括时间中断


cs 每秒上下文切换次数,例如我们调用系统函数,就要进行上下文切换,线程的切换,也要进程上下文切换,这个值要越小越好,太大了,要考虑调低线程或者进程的数目,上下文切换次数过多表示你的CPU大部分浪费在上下文切换,导致CPU干正经事的时间少了,CPU没有充分利用,是不可取的。


us 用户CPU时间

sy 系统CPU时间,如果太高,表示系统调用时间长,例如是IO操作频繁。

id  空闲 CPU时间,一般来说,id + us + sy = 100,一般我认为id是空闲CPU使用率,us是用户CPU使用率,sy是系统CPU使用率。

wa:表示IO等待所占用的CPU时间百分比,wa值越高,说明I/O等待越严重,根据经验wa的参考值为20%,如果超过20%,说明I/O等待严重,引起I/O等待的原因可能是磁盘大量随机读写造成的,也可能是磁盘或者监控器的贷款瓶颈(主要是块操作)造成的


iotop

用来监视磁盘I/O使用状况的top类工具,IO统计工具如iostat,nmon等大多数是只能统计到per设备的读写情况,使用iotop命令可以很方便的查看每个进程是如何使用IO的。otop使用Python语言编写而成,要求Python2.5(及以上版本)和Linux kernel2.6.20(及以上版本);

一般排查系统IO性能时,先使用iostat查看系统IO是否有延迟,如果有延迟可以通过iotop来查看是哪个进程占用了IO

yum install iotop

iotop(选项)

--version #显示版本号

-h, --help #显示帮助信息

-o, --only #显示进程或者线程实际上正在做的I/O,而不是全部的,可以随时切换按o

-b, --batch #运行在非交互式的模式

-n NUM, --iter=NUM #在非交互式模式下,设置显示的次数,

-d SEC, --delay=SEC #设置显示的间隔秒数,支持非整数值

-p PID, --pid=PID #只显示指定PID的信息

-u USER, --user=USER #显示指定的用户的进程的信息

-P, --processes #只显示进程,一般为显示所有的线程

-a, --accumulated #显示从iotop启动后每个线程完成了的IO总数

-k, --kilobytes #以千字节显示

-t, --time #在每一行前添加一个当前的时间

-q, --quie


快捷键:

左右箭头:改变排序方式,默认是按IO排序。

r:改变排序顺序。

o:只显示有IO输出的进程。

p:进程/线程的显示方式的切换。

a:显示累积使用量。

q:退出。



服务器的IO负载很高(iostat中的util)