突然收到伙伴说有台服务器负载异常高,帮忙排查下:

登陆服务器查看服务器负载确实异常高,在停止任何应用之后,服务器的负载还是在1.0以上,整个cpu的wa值非常。

wKiom1YdF_TTACswAAIlzW5ixFc982.jpg

准备用iotop查看是哪个进程在一直做读写操作,发现updatedb占用的大量的IO。

wKiom1YdGBzykSSWAAD5ZmRo0Ks012.jpg

将updatedb进程kill之后,重新将业务开启之后,发现服务器只要一开始跑一些业务流量的时候,服务器负载还是会变得异常的高,查看磁盘的IOWAIT情况,发现磁盘sdc util达到100%。

wKiom1YdGLmiUtLQAAL5G0wUSLE134.jpg

初步怀疑磁盘有问题,随机进入该磁盘的#touch test ,vi test。进行测试发现磁盘写也正常,

利用smartctl检查下磁盘的健康状态。

wKioL1YdGsyQGuC3AASXVXmuEiw142.jpgsmartctl记录任何的ERROR LOG。占时先将该磁盘下线,重新开启服务,终于服务器负载恢复正常。