介绍
磁盘IO突然很高是运维人员经常碰到的问题,这是由于有大量的磁盘读和写造成的,通常发生在数据库身上,然而发生的场景各种各样。本文举几个例子阐述解决思路。
正文
找到是什么程序在大量的进行读写操作。可以通过监控软件(如zabbix)或工具(如atop)查看磁盘IO的历史记录。
本文假设场景发生在xen虚拟机上,在母机上用iostat查看IO状态
# iostat -xdk 2
输出如下:
Device: rrqm/s wrqm/s r/s w/s rkB/s wkB/s avgrq-sz avgqu-sz await r_await w_await svctm %util
sda 0.00 24.50 0.00 13.50 0.00 141.00 20.89 1.71 126.67 0.00 126.67 39.70 53.60
sdb 0.00 1.50 0.00 12.00 0.00 132.00 22.00 1.42 108.33 0.00 108.33 83.33 100.00
dm-0 0.00 0.00 0.00 12.50 0.00 12.50 2.00 2.36 188.48 0.00 188.48 11.84 14.80
dm-1 0.00 0.00 0.00 6.00 0.00 24.00 8.00 0.76 126.00 0.00 126.00 33.33 20.00
dm-2 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00
dm-3 0.00 0.00 0.00 6.50 0.00 26.00 8.00 1.18 181.54 0.00 181.54 22.46 14.60
dm-4 0.00 0.00 0.00 3.00 0.00 12.00 8.00 0.40 133.33 0.00 133.33 66.67 20.00
dm-5 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00
dm-6 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00
dm-7 0.00 0.00 0.00 3.50 0.00 23.50 13.43 0.21 60.57 0.00 60.57 33.71 11.80
dm-8 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00
dm-9 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00
dm-10 0.00 0.00 0.00 4.00 0.00 28.00 14.00 0.47 117.50 0.00 117.50 78.50 31.40
dm-11 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00
dm-12 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00
dm-13 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00
dm-14 0.00 0.00 0.00 2.50 0.00 15.00 12.00 0.32 126.40 0.00 126.40 94.40 23.60
dm-15 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00
dm-16 0.00 0.00 0.00 15.00 0.00 134.00 17.87 1.56 93.60 0.00 93.60 66.67 100.00
dm-17 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00
dm-18 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00
可以看出sdb和dm-16使用了100%的%util,下面需要找出哪个逻辑卷使用了100%的IO:
# dmsetup ls
输出如下:
............ domovg-servername--db_hdc (253, 16) ...........
找到了对应的逻辑卷后,登录到对应的机器上,用dstat或iostat找出哪个进程使用了大量IO:
# dstat --top-bio-adv
如果是数据的问题到导致的,通常是以下操作导致的:
1 scp,tar,gzip,cp
2 备份
3 有大量的慢查询
4 全盘扫描的SQL语句
还有可能是raid卡的电池(BBU)出现了问题导致的,可根据对应的服务器型号用对应的命令查看raid状态(如megacli)