上个月接到客户反应,Windows文件服务器总是异常死机,且次数越来越频繁。(文件服务器是利旧24盘位服务器完成的,windows2008,阵列卡是9260-8i。总容量≥160T)
接到服务器死机信息,就赶去现场。排查思路大概是:系统>主板>阵列卡。进入服务器系统日志并没有发现任何异常,没有记录异常死机原因;而且在我到现场的几个小时内没有发生死机现象;反而在阵列卡管理软件中看到报错:
当时就推断是阵列卡问题。本来是想换系统、换主板硬件都测试一遍,也好排除其他硬件因素。但是这样的话耗费周期长,且会导致停工,无形中也会增加客户成本。跟客户沟通下,同意更换阵列卡。为了操作万无一失,当然是备份数据。也由于数据过于庞大,全盘备份也找不到合适的存储容器。跟客户说明情况后,还是客户比较信任,客户同意风险自己承担。。。(100多T的资料想想就头疼。。。。)
于是着手开始替换,搜索相关资料。找一块同型号的阵列卡,清除所有阵列信息,直接替换。但是再导入阵列信息的时候报错了。
最后发现是阵列卡固件版本不一致。。。遂升级阵列卡固件版本:
工作准备:
- 主机安装LSI阵列卡管理软件“Windows_MSM”,访问官网搜索对应型号下载管理软件,https://www.broadcom.cn/support/download-search;
- LSI阵列卡固件下载地址:https://www.broadcom.cn/support/download-search;
实施过程:
- 点击升级;
- 选择对应升级文件;
3. 等待升级完成。
升级阵列卡完成,再接到服务器,尝试导入阵列信息:
导入成功,阵列信息恢复完成。重启服务器,进入系统,测试一切正常。
至此本次替换阵列卡完成。
替换阵列卡有几点确实要注意:
1、涉及到数据方面,现场环境允许的话,首要任务就是备份备份备份。。。。没有万无一失的操作,如果有,那就是备份!
2、同型号阵列卡替换的话固件版本一定要一致;不通型号之间须有官方说明兼容才可测试。。
3、替换之前一定要确认新卡没有任何配置,否则可能会导致阵列信息丢失。。。。
4、RAID硬盘顺序不能动!!!(虽然本次替换不会移动硬盘。。)