Linux IO 实时监控iostat命令详解
简介:
对于I/O-bond类型的进程,我们经常用iostat工具查看进程IO请求下发的数量、系统处理IO请求的耗时,进而分析进程与操作系统的交互过程中IO方面是否存在瓶颈。
语法:
iostat [ -c ] [ -d ] [ -h ] [ -N ] [ -k | -m ] [ -t ] [ -V ] [ -x ] [ -z ] [ device [...] | ALL ] [ -p [ device [,...] | ALL ] ] [ interval [ count ] ]
- -c:单独显示avg-cpu部分的结果
- -d:选项单独显示Device部分的信息
- -k:指定iostat的部分输出结果以KB为单位,而不是以扇区数为单位;
- 2(count):数据显示每隔2秒刷新一次。如果后面在加一个数据就变成[如 1 2]:每隔1秒显示一次,总共显示2次
不加选项使用iostat:
[root@localhost ~]# iostat
Linux 4.10.4-1.el6.elrepo.i686 (localhost.localdomain) 08/20/2017 _i686_ (1 CPU)
avg-cpu: %user %nice %system %iowait %steal %idle
1.42 0.00 11.54 0.37 0.00 86.67
Device: tps kB_read/s kB_wrtn/s kB_read kB_wrtn
sda 12.81 286.03 6.14 1129786062 24267914
单独执行iostat,显示的结果为从系统开机到当前执行时刻的统计信息,以上输出中,除最上面指示系统版本、主机名和日期的一行外,另有两部分。
- avg-cpu:总体cpu使用情况统计信息,对于多核cpu,这是为所有cpu的平均值
- Device:各磁盘设备的IO统计信息
- tps:该设备每秒的传输次数(Indicate the number of transfers per second that were issued to the device)."一次传输"意思是"一次I/O请求。多个逻辑请求可能会被合并为"一次I/O请求"。"一次传输"请求的大小是未知的。
- kB_read/s:每秒从设备(drive expressed)读取的数据量;
- kB_wrtn/s:每秒向设备(dirve expressed)写入的数据量;
- kB_read:读取的总数据量;
- kB_wrtn:写入的意数据量;这些单位都为Kilobytes。
-x 参数:
iostat还有一个比较常用的选项-x,该选项将用于显示和io相关的扩展数据。
[root@localhost ~]# iostat -d -k -x 1
Linux 4.10.4-1.el6.elrepo.i686 (localhost.localdomain) 08/20/2017 _i686_ (1 CPU)
Device: rrqm/s wrqm/s r/s w/s rkB/s wkB/s avgrq-sz avgqu-sz await r_await w_await svctm %util
sda 0.00 0.64 12.14 0.67 286.28 6.15 45.63 0.01 0.59 0.26 6.44 0.39 0.50
- rrqm/s:每秒这个设备相关的读取请求有多少被Merge了(当系统调用需要读取数据的时候,VFS将请求发到各个FS,如果FS发现不同的读取请求读取的是相同的Block的数据,FS会将这个请求合并Merge)
- wrqm/s:每秒这个设备相关的写入请求有多少被Merge了。
- r/s:每秒完成的读次数
- w/s:每秒完成的写次数
- rKB/s:每秒读数据量(kb为单位)
- wKB/s:每秒写数据量
- avgrq-sz:平均请求扇区的大小
- avgqu-sz:是平均请求队列的长度,毫无疑问,队列长度越短越好。
- await:每一个IO请求处理的平均时间(单位是毫秒),这里可以理解为IO的响应时间,一般地系统IO响应时间应该低于5ms,如果大于10ms就比较大了。这个时间包括了队列时间和服务时间,也就是说,一般这种情况下,await大于svctm,它们的差值越小,则说明队列时间越短,反之差值越在,队列时间越长,说明系统出了问题
- svctm:表示平均每次设备I/O操作的服务时间(以毫秒为单位),如果svctm的值与await很接近,表示几乎没有I/O在等待,磁盘性能很好,如果await的值远高于svctm的值,则表示I/O队列等待太长,系统上运行的应用程序将变慢。
- %util:在统计时间内所有处理IO时间,除以总共统计时间。例如,如果统计间隔1秒,该设备有0.8秒处理IO,而0.2秒闲置,那么该设备的%util=0.8/1=80%,所以该参数暗示了设备的繁忙程度。一般地,如果该参数是100%表示已经接近满负荷运行了(当然如果是多磁盘,即使%util是100%,因为磁盘的并发能力,所以磁盘使用未必到了瓶颈)