监控磁盘io错误监控磁盘io命令

转载

编程之翼 2024-04-09 15:03:35

文章标签 监控磁盘io错误操作系统 ios 数据响应时间 文章分类 运维

Linux IO 实时监控iostat命令详解

简介：

对于I/O-bond类型的进程，我们经常用iostat工具查看进程IO请求下发的数量、系统处理IO请求的耗时，进而分析进程与操作系统的交互过程中IO方面是否存在瓶颈。

语法：

iostat [ -c ] [ -d ] [ -h ] [ -N ] [ -k | -m ] [ -t ] [ -V ] [ -x ] [ -z ] [ device [...] | ALL ] [ -p [ device [,...] | ALL ] ] [ interval [ count ] ]

-c：单独显示avg-cpu部分的结果
-d：选项单独显示Device部分的信息
-k：指定iostat的部分输出结果以KB为单位，而不是以扇区数为单位;
2(count)：数据显示每隔2秒刷新一次。如果后面在加一个数据就变成[如 1 2]：每隔1秒显示一次，总共显示2次

不加选项使用iostat：

[root@localhost ~]# iostat 

Linux 4.10.4-1.el6.elrepo.i686 (localhost.localdomain)  08/20/2017  _i686_  (1 CPU)


avg-cpu:  %user   %nice %system %iowait  %steal   %idle

           1.42    0.00   11.54    0.37    0.00   86.67


Device:            tps    kB_read/s    kB_wrtn/s    kB_read    kB_wrtn

sda              12.81       286.03         6.14 1129786062   24267914

单独执行iostat，显示的结果为从系统开机到当前执行时刻的统计信息，以上输出中，除最上面指示系统版本、主机名和日期的一行外，另有两部分。

avg-cpu:总体cpu使用情况统计信息，对于多核cpu，这是为所有cpu的平均值
Device:各磁盘设备的IO统计信息
tps：该设备每秒的传输次数(Indicate the number of transfers per second that were issued to the device)."一次传输"意思是"一次I/O请求。多个逻辑请求可能会被合并为"一次I/O请求"。"一次传输"请求的大小是未知的。
kB_read/s：每秒从设备(drive expressed)读取的数据量;
kB_wrtn/s：每秒向设备(dirve expressed)写入的数据量;
kB_read：读取的总数据量;
kB_wrtn：写入的意数据量;这些单位都为Kilobytes。

-x 参数：

iostat还有一个比较常用的选项-x,该选项将用于显示和io相关的扩展数据。

[root@localhost ~]# iostat -d -k -x 1

Linux 4.10.4-1.el6.elrepo.i686 (localhost.localdomain)  08/20/2017  _i686_  (1 CPU)


Device:         rrqm/s   wrqm/s     r/s     w/s    rkB/s    wkB/s avgrq-sz avgqu-sz   await r_await w_await  svctm  %util

sda               0.00     0.64   12.14    0.67   286.28     6.15    45.63     0.01    0.59    0.26    6.44   0.39   0.50

rrqm/s：每秒这个设备相关的读取请求有多少被Merge了(当系统调用需要读取数据的时候，VFS将请求发到各个FS，如果FS发现不同的读取请求读取的是相同的Block的数据，FS会将这个请求合并Merge)
wrqm/s：每秒这个设备相关的写入请求有多少被Merge了。
r/s：每秒完成的读次数
w/s：每秒完成的写次数
rKB/s：每秒读数据量(kb为单位)
wKB/s：每秒写数据量
avgrq-sz：平均请求扇区的大小
avgqu-sz：是平均请求队列的长度，毫无疑问，队列长度越短越好。
await：每一个IO请求处理的平均时间(单位是毫秒)，这里可以理解为IO的响应时间，一般地系统IO响应时间应该低于5ms，如果大于10ms就比较大了。这个时间包括了队列时间和服务时间，也就是说，一般这种情况下，await大于svctm,它们的差值越小，则说明队列时间越短，反之差值越在，队列时间越长，说明系统出了问题
svctm：表示平均每次设备I/O操作的服务时间(以毫秒为单位)，如果svctm的值与await很接近，表示几乎没有I/O在等待，磁盘性能很好，如果await的值远高于svctm的值，则表示I/O队列等待太长，系统上运行的应用程序将变慢。
%util：在统计时间内所有处理IO时间，除以总共统计时间。例如，如果统计间隔1秒，该设备有0.8秒处理IO，而0.2秒闲置，那么该设备的%util=0.8/1=80%，所以该参数暗示了设备的繁忙程度。一般地，如果该参数是100%表示已经接近满负荷运行了(当然如果是多磁盘，即使%util是100%，因为磁盘的并发能力，所以磁盘使用未必到了瓶颈)