记录一次3ware 卡的Raid10重建

原创

canidosh 2009-09-23 13:20:45 博主文章分类：服务器管理 ©著作权

文章标签 职场 raid 休闲 3ware 9500s-12 文章分类 服务器

©著作权归作者所有：来自51CTO博客作者canidosh的原创作品，请联系作者获取转载授权，否则将追究法律责任

我们公司有唯一一台长城的服务器NS3120，有12个250G硬盘。应该是2005年8月份左右买的，用来做公司主存储，命名主机名称用nas。到去年8月份就过了保修期。

上周6突然收到很多这样的邮件警告：

Subject：3ware 3DM2 alert -- host: nas

20090919192526 - Controller 0

WARNING - Sector repair completed: port=2, LBA=0x1B6BD900

后来又有内容如下的警告：

20090919192925 - Controller 0

ERROR - Degraded unit: unit=0, port=2

20090919192925 - Controller 0

ERROR - Drive timeout detected: port=2

20090919000129 - Controller 0

WARNING - SMART threshold exceeded: port=2

因为是周末邮件都是到了晚上才看到。当然服务器日志message里面也出现了很多这样的错误。

这时候我登录到nas服务器上，输入tw_cli（有很多人可能喜欢tw_cli 后直接接命令，像tw_cli info c0 u0 等，但我更喜欢先进入tw_cli的命令界面后，再进行别的操作），得到：

[root@nas ~]# tw_cli

//nas> info c0 u0

Unit UnitType Status %Cmpl Port Stripe Size(GB) Blocks

-----------------------------------------------------------------------

u0 RAID-10 DEGRADED* - - 64K 1396.92 2929557504

u0-0 RAID-1 OK - - - - -

u0-0-0 DISK OK - p10 - 232.82 488259584

u0-0-1 DISK OK - p11 - 232.82 488259584

u0-1 RAID-1 OK - - - - -

u0-1-0 DISK OK - p8 - 232.82 488259584

u0-1-1 DISK OK - p9 - 232.82 488259584

u0-2 RAID-1 OK - - - - -

u0-2-0 DISK OK - p6 - 232.82 488259584

u0-2-1 DISK OK - p7 - 232.82 488259584

u0-3 RAID-1 OK - - - - -

u0-3-0 DISK OK - p4 - 232.82 488259584

u0-3-1 DISK OK - p5 - 232.82 488259584

u0-4 RAID-1 DEGRADED - - - - -

u0-4-0 DISK DEGRADED - p2 - 232.82 488259584

u0-4-1 DISK OK - p3 - 232.82 488259584

u0-5 RAID-1 OK - - - - -

u0-5-0 DISK OK - p0 - 232.82 488259584

u0-5-1 DISK OK - p1 - 232.82 488259584

//nas> info c0

Unit UnitType Status %Cmpl Stripe Size(GB) Cache AVerify IgnECC

------------------------------------------------------------------------------

u0 RAID-10 DEGRADED - 64K 1396.92 ON OFF OFF

Port Status Unit Size Blocks Serial

---------------------------------------------------------------

p0 OK u0 232.88 GB 488397168 WD-WCAL76280314

p1 OK u0 232.88 GB 488397168 WD-WCAL76207833

p2 DEVICE-ERROR u0 232.88 GB 488397168 WD-WCAL73516836

p3 OK u0 232.88 GB 488397168 WD-WCAL73587842

p4 OK u0 232.88 GB 488397168 WD-WCAL75670919

p5 OK u0 232.88 GB 488397168 WD-WCAL76197410

p6 OK u0 232.88 GB 488397168 WD-WCAL73498032

p7 OK u0 232.88 GB 488397168 WD-WCAL73588557

p8 OK u0 232.88 GB 488397168 WD-WCAL76291855

p9 OK u0 232.88 GB 488397168 WD-WCAL76254218

p10 OK u0 232.88 GB 488397168 WD-WCAL76251971

p11 OK u0 232.88 GB 488397168 WD-WCAL76280979

查看raid卡序列号

//nas> info c0 serial

/c0 Serial Number = F19302A4430087

查看raid卡型号

//nas> info c0 model

/c0 Model = 9500S-12

由上面的输出，显示u0-4-0 DISK DEGRADED - p2 - 232.82 488259584 这个硬盘已经降级，发现p2 DEVICE-ERROR u0 232.88 GB 488397168 WD-WCAL73516836在Port2 出现device-error ，基本可以判定port2上的硬盘坏了（或者说可能快坏了，最好更换）。

拨长城400技术售后电话，无法接通（不再上班时间段），等到周日再拨，叫我联系苏州地区维修点。苏州维修点周日不上班，再等到周一。

这时候心里其实很着急的，因为这个主存储器上放了公司很多重要的东西，而且硬盘被频繁读写了这么多年，如果损坏影响会比较大，不过唯一比较安慰的就是从周5到周6晚上我已经完成了重要数据的备份。使用rsync同步1.1T共8053566个左右文件，耗时共39.5小时。

好不容易挨到周一，打苏州维修告诉了他们具体情况比如（机器型号，硬盘大小，raid卡型号3ware 9500S-12），因为对长城的服务器不熟，因为我们服务器不方便关机重启，然后咨询了几个问题

1. 我们这个服务器是否支持热插拔

2. 是否支持raid卡的raid10自动重建

3. 如果我自己更换一个320G的硬盘是否可以

4. 如果不支持我怎么自己来rebuild

他们说需要查询总部，然后没消息了，打过几次电话过去给了些没用的信息，打长城总部技术支持也这样，还联系过南京维修点。共打了估计10次电话吧，总之都没有人回答我这几个基本问题。这次对长城服务器的售后维护这块超级不满意。到我记录为止（现在已经周3早上了，还没有给我明确答复）。我估计是因为可能长城不主攻服务器市场，里面的技术工程师都是桌面机的。而且他们和客户联系的好像都是普通工程师，问个什么问题都说要和后台工程师确认，而且效率超级慢，为什么不能让“厉害”的后台工程师直接和客户联系呢？最后看来是不能指望长城的售后了，只能自己到3ware的网站去翻资料，熟悉了下9500s-12卡，但是没有明确看到autorebuild 功能。

因为同步过一次数据，心里稍微放心点，心想自己弄吧。如果真坏了，大不了就用我备份服务器上的数据。根据以往换别的服务器的经验，周一晚上定了块320G的西数企业硬盘（目前市场上很难买到250G的西数企业硬盘了。）周2拿到了硬盘，然后再次同步了下最重要的cvs数据。

到了晚上，我走进机房，再次确认了下是port2口，拨下硬盘然后用tw_cli info c0 u0 查看信息没任何变化。

更换托架新硬盘插入，输出信息还是没有任何变化。这个卡不支持自动rebuild ？只能手动了rebuild了。

通过网上的资料，输入：