大周末的,接到同事电话,说服务器不通了,服务器在公司机房里,没有远程控制卡,说让我去看一下,接上显示器,发现满屏幕的“sd 0:1:1:0 rejecting I/O to offline device”,无法远程连接服务器,我就按电源重启了。
重启后能正常使用。
把这个报错到网上查了一下说这个sd 0:1:1:0 被踢下线了。
到系统下用cat /proc/scsi/scsi 一看是
Host: scsi0 Channel: 01 Id: 01 Lun: 00
Vendor: LSILOGIC Model: Logical Volume Rev: 3000
Type: Direct-Access ANSI SCSI revision: 02
####是sd 0:1:1:0 是raid
/usr/bin/lsiutil 查看raid也是好的
1 volume is active, 2 physical disks are active
Volume 0 is Bus 0 Target 1, Type IM (Integrated Mirroring)
Volume Name:
Volume WWID: 00566177e1862e87
Volume State: optimal, enabled
Volume Settings: write caching disabled, auto configure
Volume draws from Hot Spare Pools: 0
Volume Size 139236 MB, 2 Members
Primary is PhysDisk 1 (Bus 0 Target 2)
Secondary is PhysDisk 0 (Bus 0 Target 8)
此时看了一下 tail -f /var/log/messages
Jan 5 12:29:00 spider58 kernel: command: Write(10): 2a 00 04 56 68 97 00 00 10 00
Jan 5 12:29:00 spider58 kernel: mptscsih: ioc0: task abort: SUCCESS (sc=ec999440)
Jan 5 12:29:00 spider58 kernel: mptscsih: ioc0: attempting task abort! (sc=f7832800)
Jan 5 12:29:00 spider58 kernel: sd 0:1:1:0:
Jan 5 12:29:00 spider58 kernel: command: Write(10): 2a 00 04 56 69 47 00 00 10 00
Jan 5 12:29:00 spider58 kernel: mptscsih: ioc0: task abort: SUCCESS (sc=f7832800)
Jan 5 12:29:00 spider58 kernel: mptscsih: ioc0: attempting task abort! (sc=f7832d00)
参考http://ilinuxkernel.com/?p=386
说这个报错和“该信息与硬盘是否故障无直接联系”
再看磁盘io
Device: rrqm/s wrqm/s r/s w/s rsec/s wsec/s avgrq-sz avgqu-sz await svctm %util
sdc 12.04 8.12 7.88 5.94 130.70 111.66 17.54 1.02 74.05 5.06 6.99
sdc1 0.05 0.00 0.01 0.00 0.12 0.00 15.08 0.00 2.70 1.85 0.00
sdc2 0.04 0.00 0.00 0.00 0.08 0.00 61.22 0.00 8.44 8.22 0.00
sdc3 0.12 2.33 0.10 1.38 4.45 29.68 22.97 0.27 179.59 18.91 2.81
sdc4 0.00 0.00 0.00 0.00 0.00 0.00 3.50 0.00 14.25 14.25 0.00
sdc5 8.74 0.17 0.66 0.08 24.09 1.55 34.38 0.05 65.53 7.46 0.56
sdc6 1.50 0.82 0.28 0.56 6.60 10.77 20.70 0.15 179.76 23.79 2.00
sdc7 0.45 1.08 0.27 1.21 3.32 18.19 14.50 0.09 59.13 15.11 2.24
sdc8 1.13 3.72 6.54 2.71 92.02 51.47 15.51 0.47 50.67 5.97 5.52
根据上面的情况也没看出问题在哪? 还得请大牛们指点指点
参考:
Linux内核I/O系统报错日志与硬盘故障对应关系 http://ilinuxkernel.com/?p=386
linux IO 调度算法 http://blog.csdn.net/theorytree/article/details/6259104
iostat 分析http://www.php-oa.com/2009/02/03/iostat.html