一、iostat命令
iostat用于监视系统I/O设备负载。iostat通过观察设备处于活动状态的时间(相对于其平均传输速率)来整理实时报告输出 。主要用于监视nfs网络文件系统和本地文件系统。
1、iostat命令格式
iostat [ -c | -d ] [ -k | -m ] [ -t ] [ -V ] [ -x ] [ device [ ... ] | ALL ] [ -p [ device | ALL ] ]
[ interval [ count ] ]
2、iostat参数说明
-c: 仅显示CPU统计信息.与-d选项互斥.
-d:仅显示磁盘统计信息.与-c选项互斥.
-k:以K为单位显示每秒的磁盘请求数,默认单位块.
-p:device | ALL
与-x选项互斥,用于显示块设备及系统分区的统计信息.也可以在-p后指定一个设备名,如:
# iostat -p hda
或显示所有设备
# iostat -p ALL
-t : 在输出数据时,打印搜集数据的时间.
-V: 打印版本号和帮助信息.
-x : 输出扩展信息.
3、iostat的简单使用
iostat可以显示CPU和I/O系统的负载情况及分区状态信息.
直接执行iostat可以显示下面内容:
[root@fbc ~]# iostat
Linux 3.10.0-957.el7.x86_64 (fbc) 2022年06月11日 _x86_64_ (4 CPU)
avg-cpu: %user %nice %system %iowait %steal %idle
0.33 0.00 0.77 0.01 0.00 98.89
Device: tps kB_read/s kB_wrtn/s kB_read kB_wrtn
scd0 0.00 0.01 0.00 1050 0
sda 0.21 8.90 0.63 781839 55649
dm-0 0.21 8.53 0.61 749490 53564
dm-1 0.00 0.03 0.00 2460 0
各个输出项目的含义如下:
avg-cpu段:
%user: 在用户级行所使别运用的CPU的百分比. <60%
%nice: nice操作所使用的CPU的百分比.
%system: 在系统级别(kernel)运行所使用CPU的百分比. sy+us <80%
%iowait: IO等待所占用的cup时间(重要) <30% (不同功能的服务器不同)
%steal:丢失时间占用cpu 作为一个参考
%idle: CPU处于中断(空闲)状态的时间.
注:一般来说%idie持续游走在20%以下,瓶颈出现在cpu的性能层面。
%iowait高而%idle在70%以上,瓶颈出现在i/o设备层面。
Device段: 设备名 dm是disk mapper(磁盘映射)的缩写 可以写成在/dev/mapper下查对应谁。
参数 -N 可以将dm 转换成相应的LVM名
tps: 设备每秒接受的i/o传输请求 每秒I/O吞吐量=TPS * I/O传输大小
kb_read /s: 设备每秒读取的block数. -m 可以换成 MB
kb_wrtn/s: 每秒写入的block数.
kb_read: 读入的block总数.
kb_wrtn: 写入的block总数.
注:如果%iowait的值过高,表示硬盘存在I/O瓶颈,%idle值高,表示CPU较空闲,如果%idle值高但系统响应慢时,有可能是CPU等待分配内存,此时应加大内存容量。
%idle值如果持续低于10,那么系统的CPU处理能力相对较低,表明系统中最需要解决的资源是CPU。
4、iostat实例
(1)iostat
显示一条统计记录,包括所有的CPU和设备
(2) iostat -m
以M为单位显示所有信息
(3)iostat -c 1 2
查看cpu状态
间隔1秒显示一次,总共显示2次
(4)iostat -d 2
每隔2秒,显示一次设备统计信息.
(5) iostat -d 2 3
每隔2秒,显示一次设备统计信息.总共输出3次.
(6) iostat -x hda hdb 2 3
每隔2秒显示一次hda,hdb两个设备的扩展统计信息,共输出3次.
(7)iostat -p sda 2 3
每隔2秒显示一次sda及上面所有分区的统计信息,共输出3次.
5、压力测试
(1)先用 iostat -d -x -k 1 1
查看设备使用率(%util)、响应时间(await)
(2) 想磁盘中写入大量的内容来占用磁盘资源
(3)将没有压测的结果和压测结果进行对比
avgqu-sz、await、wrqm/s、w/s、wkb/s、avgrq-sz数值都极具增加
参数详情
rrqm/s: 每秒进行 merge 的读操作数目。即 rmerge/s
wrqm/s: 每秒进行 merge 的写操作数目。即 wmerge/s
r/s: 每秒完成的读 I/O 设备次数。即 rio/s
w/s: 每秒完成的写 I/O 设备次数。即 wio/s
rkB/s: 每秒读K字节数。是 rsect/s 的一半,因为每扇区大小为512字节。
wkB/s: 每秒写K字节数。是 wsect/s 的一半。
avgrq-sz: 平均每次设备I/O操作的数据大小 (扇区)。 每个请求平均大小,单位是扇区数,一般在200~400之间算是正常和理想的状态,如果这个值比较小,比方说只在100左右,
说明太多的IO请求没有被合并,或者大的IO请求被“打散”,在写操作时,过多小的请求会造成磁盘磁头的频繁移动,降低IO性能。
avgqu-sz平均请求队列长度,这个值在正常的系统中不应超过113太多,如果在200左右,甚至上千那说明发生了IO拥塞,
而系统还在向IO请求队列中放请求(有一个例外是在执行sync,fsync操作时,该值到达最大值8192是正常的)
rsec/s: 每秒读扇区数。即 rsect/s
wsec/s: 每秒写扇区数。即 wsect/s
r_await:每个读操作平均所需的时间
不仅包括硬盘设备读操作的时间,还包括了在kernel队列中等待的时间。
w_await:每个写操作平均所需的时间
不仅包括硬盘设备写操作的时间,还包括了在kernel队列中等待的时间。
await: 平均每次设备I/O操作的等待时间 (毫秒)。(主要看这个,重点)
svctm: 平均每次设备I/O操作的服务时间 (毫秒)。
%util: 一秒中有百分之多少的时间用于 I/O 操作,即被io消耗的cpu百分比
备注:%util表示该设备有i/o非空闲的时间比率,不考虑i/o有多少,由于硬盘设备有并行处理多个i/o请求的能力,所以%util即使达到100%也不意味着设备饱和了。
svctm一般要小于await(因为同时等待的请求的等待时间被重复计算了),svctm的大小一般和磁盘性能有关,CPU/内存的负荷也会对其有影响,请求过多也会间接导致svctm的增加。
await的大小一般取决于服务时间(svctm)以及I/O队列的长度和I/O请求的发出模式。
如果svctm比较接近await,说明I/O几乎没有等待时间;如果await远大于svctm,说明I/O队列太长,应用得到的响应时间变慢,
如果响应时间超过了用户可以容许的范围,这时可以考虑更换更快的磁盘,md调整内核elevator算法,优化应用,或者升级CPU。