【摘要】本文涉及 DS3000\4000\5000 中低端存储系列及部分 Storwise V 系列的存储,产品虽较老但很多企业仍在使用,如出现问题使人头痛,本文整理总结了部分知识和方法,供大家参考。更多最新存储的运维知识技巧,可参看本文后附推荐内容。

【作者】王巧雷,从事小型机、存储、备份十年有余,精通Power小型机及其相关技术,包括PowerVM、PowerHA等等,拥有CATE认证,精通DS系统存储技术,精通TSM备份软件,熟悉Oracle、Db2 等主流数据库。


目录

1 IBM 存储产品简介 

2 硬盘更换标准流程 

2.1 更换步骤 

2.2 不同控制器微码版本换盘注意事项 

3 控制器电池更换 

3.1 更换参考步骤

4 备件更换异常情况处理 

4.1 部分 V7 版本的电池更换后,无法重置电池时间 

4.2 更换硬盘后,sm 中不识别,报“uncertified drive”或空白

4.3 06.xx 或更低版本下更换硬盘后, 不自动同步的解决方法 

4.4 07.xx 版本更换硬盘后,新换的盘带故障盘标,不自动同步

4.5 做硬盘或控制器更换操作时,大面积的硬盘离线 

4.6 V7 微码版本下 大容量硬盘快速更换方法 

4.7 DS3000 系列磁盘报“impending failure”, 但是没有按钮提供手工 fail drive 


1、存储产品简介

IBM 磁盘存储包含低端的 DS3000 系列, 早期中端的 DS4000 和 DS5000 系列、高端的 DS8000 系列。分别覆盖低中高段的 Storwise V3000、 V5000和 V7000 系列。以及其他高端 XIV 及SVC虚拟化网关系列。目前本章节仅涉及 OEM LSI 的 DS 系列。

IBM 存储常见问题处理方法 | 资料_java

IBM 存储常见问题处理方法 | 资料_java_02

注:最高微码指的是截止到 2015-01-01 的最高微码


2、硬盘更换标准流程

2.1  更换步骤

1. 首先查看故障盘状态,如果是 impending 状态,需要对故障盘手工 fail drive。选中状态为 impending 的盘,单击“advanced---recovery---fail drive”

IBM 存储常见问题处理方法 | 资料_java_03

在弹出的窗口输入“yes”

IBM 存储常见问题处理方法 | 资料_java_04

2. 完成后,硬盘状态如标识中所示。如果硬盘状态为第二块盘的“bypass”状态,可以直接操作。

IBM 存储常见问题处理方法 | 资料_java_05

3. 拉开故障盘把手,将硬盘拔出来。

4. 等待 1 分钟左右,插入新硬盘,数据会自动同步,新换的盘上会有一个旋风标识。

IBM 存储常见问题处理方法 | 资料_java_06

5. 当旋风标识消失后,数据同步完成,硬盘更换完毕。

2.2  不同控制器微码版本换盘注意事项

1. 控制器微码低于 V7.xxx 版本,硬盘为干净硬盘

2. 控制器微码高于 V7.xxx 版本,硬盘为干净硬盘

3. 控制器微码高于 V7.xxx 版本,硬盘是未经初始化过的硬盘,含老旧 raid 信息

4. 控制器微码低于 V7.xxx 版本, 硬盘是未经初始化过的硬盘, 含老旧 raid 信息。

操作方法,需按以下步骤进行(以 ds4700 为例)

注意:如果是这种情况,一定要按下面步骤操作,或重新向库房申请干净的硬盘

准备工作(可选,但建议)

1. 由用户重启所有应用和主机,确保升级前无故障后完全关闭所有应用。

2. 备份所有的操作系统和数据并验证。

3. 准备一个 hub,同时连接到 DS4700 的 A 控和 B 控

4. 确认 DS4700 的控制器微码、ESM 微码及硬盘微码。

5. 确认当前所有的硬盘处于 optimal 状态

6. 通过 Storage Manager 的 Read_Link_Status 功能和 Major Event Log(MEL)功能,确认扩展柜环路(drive loop)处于最佳(optimal)状态

7. 消除和解决 DS4700 现存的所有故障告警。

8. 保存一份配置的 profile 文件,收集一份 ASD 文件。

执行禁用驱动器迁移设置

1. 打开 Storage Manager 客户端程序的 Enterprise Management 窗口

2. 右键单击打算添加驱动器的DS4000/DS5000的名称并点击Execute Script 脚本编辑器窗口打开。单击 File->Load Script

3. Load Script file seletion 窗口打开。找到并选择名为 DisableDriveMigration.script的文件并单击 OK。

4. 点击 Tools->Verify and Execute 以运行脚本。

注意:此过程中,存储的两个控制器会依次重启,执行前请确保应用停止, IO 断开。

按手册步骤更换硬盘

按官方步骤更换硬盘,更换前要先检查现有的硬盘微码:

1. 如果发现类型为 HUS1030XXFLF21,微码版本为 JFQ3 或 JFQ4 的硬盘,应尽快升级微码到 JFQ8 或以上。

2. 如果发现类型为 MAX3036FD, MAX3073FD, MAX3147FD, 微码版本为 S707 的硬盘,应尽快升级微码到 S708 或以上

启用驱动器迁移设置

硬盘识别完毕后,需再次启用驱动器迁移设置,以便可以对新盘进行配置。

注:步骤和禁用类似,启用迁移配置脚本名称为 EnableDriveMigration.script过程略


3  控制器电池更换

3.1  更换参考步骤

IBM DS 系列存储的控制器电池依型号不同,换法也各不相同,有的电池在控制器内部, 这里只描述通用流程(以 DS4300 为例)有的在外部,具体的更换方法参考官方手册,手册地址参考附录

1. 登录 SM,检查 recovery guru,确认故障电池的报错和位置

IBM 存储常见问题处理方法 | 资料_java_07

也可以通过如下方法确认故障电池在哪个控制器上

IBM 存储常见问题处理方法 | 资料_java_08IBM 存储常见问题处理方法 | 资料_java_09

2. 通过点击 lun,查看 lun 归属,确认哪些 lun 位于受影响的控制器上IBM 存储常见问题处理方法 | 资料_java_10

3. 通过更改 ownership 的方式将受影响的 lun 切换到另一个控制器上

IBM 存储常见问题处理方法 | 资料_java_11

注意:此操作的前提是, 主机端配置了多路径软件且路径生效,如果不满足此条件,需将业务主机的 IO 关闭,否则会影响业务。

4. 选择故障电池所在控制器,将控制器 offlineIBM 存储常见问题处理方法 | 资料_java_12IBM 存储常见问题处理方法 | 资料_java_13

5. 拔掉电源及连接线,取出控制器,更换电池

6. 重新将控制器插入存储,并接好数据线和电源线,开启电源开关

7. 参考第 4 步将控制器 online

8. 参考如下图片,重置电池时间

IBM 存储常见问题处理方法 | 资料_java_14

9. 参考第 3 步,更改 lun 的 ownership,完成电池更换。


4、备件更换异常情况处理

4.1  部分 V7  版本的电池更换后,无法重置电池时间

部分 v7版本的存储在更换完控制器电池后, 无法重置电池, 打开界面后没有 reset 按钮,如下:

IBM 存储常见问题处理方法 | 资料_java_15

解决方法:

这时 SM10.8x 版本的管理器界面发生了变化,通过如下方式可以打开重置界面:

IBM 存储常见问题处理方法 | 资料_java_16IBM 存储常见问题处理方法 | 资料_java_17

通过上方位置的下拉按钮可以选择电池,点击 reset age 可以重置时间。

4.2  更换硬盘后,sm  中不识别,报“uncertified drive ”或空白

一般情况下,这是由于发来的备件硬盘原先在高版本微码的存储上用过,盘头的 dacstore 已经被写入数据。需要由备件中心对 dacstore 区域进行擦除,

如下:

A. 将硬盘插入一台测试存储

B. 使用串口登录存储,执行

C. sysWipeZero 1 (06.xx)

D. dsmWipeAll (07.xx)

E. 执行完毕,重启时拔下硬盘即可

注意:此操作会擦除所有数据,只能由备件中心在库房的测试机上操作。

4.3 06.xx , 或更低版本下更换硬盘后,  不自动同步的解决方法

如 果 更 换 磁 盘 后 不 自 动 同 步 , 可 以 选 中 刚 换 的 盘 , 选 择“advanced—recovery—reconstruct drive”

IBM 存储常见问题处理方法 | 资料_java_18

执行完毕后,会自动同步:

IBM 存储常见问题处理方法 | 资料_java_19

4.4 07.xx 版本更换硬盘后,新 版本更换硬盘后,新 换的盘带故障盘标,不自动同步

A. 目前,仅在 7 微码版本发现此问题,解决方法如下:

B. 安装硬盘更换流程,更换硬盘

C. 点击降级的 raid group,右键选中“replace—drive”IBM 存储常见问题处理方法 | 资料_java_20D. 在弹出的窗口选择要更换的目的盘,点击“replace drive”

IBM 存储常见问题处理方法 | 资料_java_21

E. 提示如下信息时,开始自动回拷数据,更换成功。

IBM 存储常见问题处理方法 | 资料_java_22

4.5  做硬盘或控制器更换操作时,大面积的硬盘离线

这种情况一般是由于微码的bug导致, 当DS存储的部件微码处于以下条件时,应优先处理微码故障:

A. EXP710 的 ESM 的微码隐患在 9681 以下,应尽快升级到 9681 以上

B. EXP810 和 EXP420 的 ESM 的微码在 98D0 以下,应尽快升级到 98D0以上

C. 型号为 HUSxxxxxxFLF21 的 DDM 的 JFQ3/JFQ4 微码,应尽快升级到JFQ8 或以上

D. 型号为 MAX3036FD, MAX3073FD, MAX3147FD 的 DDM 的 S707 微码,应尽快升级到 S708 或以上

E. 类型为 ST31000340NS,ST3250310NS,ST3500320NS, ST3750330NS 的 SATA 硬盘的 BB10 微码,尽快升级到 BB12 或以上

4.6 V7  微码版本下  大容量硬盘快速更换方法

这种情况适用于存储中使用了大量的 2T 或更高容量的 SATA 盘,当硬盘发生故障后,热备盘已经顶上。

IBM 存储常见问题处理方法 | 资料_java_23

如上图,11 号盘是 1T 的 sata 盘,目前损坏,被 12 号全局热备盘顶上。这时,12 号热备盘已经完成了一个数据回拷,这个过程依硬盘容量而定,耗时很长。

如果按照常规流程,此时换盘,将 11 号坏盘拔下,插入新盘的时候,12号热备盘会将数据拷回 11 号新盘,耗时很久,如果此时系统恰好有多块盘损坏的话,整个更换过程可能需要好几天,此过程也增加了风险。

这时可以采用 replace drive 的方式,在拔故障盘之前将 12 号热备盘角色更改为数据盘,然后再拔出故障盘,插入新盘。然后再将 11 号的新盘设置为全局热备盘即可。


IBM 存储常见问题处理方法 | 资料_java_24


IBM 存储常见问题处理方法 | 资料_java_25

将 11 号新盘,设置为热备,全做完后如下:

IBM 存储常见问题处理方法 | 资料_java_264.7 DS3000  系列磁盘报“impending failure ” ,但是没有按钮提供手工 fail drive

DS3000 系列是入门级存储,对应的 SM 管理软件非常简陋,缺失了很多高级功能,当磁盘报“impending failure”时,没有对应的 fail drive 按钮,此时需要使用脚本编辑器来执行“fail drive”操作流程如下:

A. 打开 sm,点击物理磁盘,会弹出定位磁盘的对话框,选中要标记的盘,记录id,如下图就是 0,3

IBM 存储常见问题处理方法 | 资料_java_27

B. 到 sm 管理器,选中要管理的存储,右键-执行脚本IBM 存储常见问题处理方法 | 资料_java_28C. 在弹出的脚本编辑器中,输入如下命令IBM 存储常见问题处理方法 | 资料_java_29D. 选择“verify and execute” 执行脚本

IBM 存储常见问题处理方法 | 资料_java_30

IBM 存储常见问题处理方法 | 资料_java_31

E. 执行成功后,检查如果变成 failed 就可以拔了

IBM 存储常见问题处理方法 | 资料_java_32

此时,就可以将告警磁盘,拔出来更换了。