背景说明:
某医院PACS 系统 DS5020存储报错 ,服务器的LUN连接不上。控制器拨除灯是蓝色的,代码0E,L6
控制器能够PING通,能够TELNET进入命令行,使用DS manager连接控制器提示设备暂不可用(这里可以初步判断控制器硬件应该是好的)。
查看 0E L6的代码解释,0E 指进入了锁定模式,L6 是指不受支持的主机卡(unsupport host card).
(注意:以下面排障操作中,一定要避免损坏数据,要拨出光纤线和硬盘。)
诊断步骤:
首先主柜断电重启,停在0S 5D代码上。 一会后,又回复到初始情况:
(控制器拨除灯是蓝色的,代码0E,L6;使用DS manager连接控制器提示设备暂不可用。)
1、测试控制器是否异常
做好标记并拨除所有光纤线,拨离硬盘,硬盘一定要做好标记。关机然后每个控制器单独尝试是否能够正常开机。(故障结果一致)
2、记录控制器微码版本信息;
telnet下无法执行命令,用串口连接(boud rate:115200),重启控制器,会显示相关信息。
==============================================
Title: Disk Array Controller
Copyright 2008-2013 NetApp, Inc. All Rights Reserved.
Name: RC
Version: 07.84.46.00
Date: 03/26/2013
Time: 12:15:07 CDT
Models: 4980 4981 4985 4988
Manager: devmgr.v1084api04.Manager
3、更换控制器,提示同样的问题(控制器拨除灯是蓝色的,代码0E,L6),接串口线执行sysWipe命令提示如下;
02/26/16-01:42:58 (utlTimer): WARN: Extended Link Down Timeout on channel 1
02/26/16-01:43:57 (tRAID): NOTE: WWN baseName 000a0080-e52c78c6 (valid==>SoftRst)
02/26/16-01:43:57 (tRAID): NOTE: spmEarlyData: No data available
02/26/16-01:43:58 (tRAID): SOD: Pre-Initialization Phase Complete
02/26/16-01:44:02 (tRAID): WARN: dbm::RWFileSystem::initialize: Exception caught, ConstructorIOException: -16, dqId = 0
02/26/16-01:44:02 (tRAID): ERROR: In PersistenceManager::initialize: catch DbmNoFileSystemException: recType: 84
02/26/16-01:44:02 (tRAID): ERROR: ADM Load Reservations failed with error (5) Exception
02/26/16-01:44:02 (tRAID): NOTE: ACS: Icon ping to alternate failed: -2, resp: 0
02/26/16-01:44:02 (tRAID): NOTE: ACS: autoCodeSync(): Process start. Comm Mode: 0, Status: 0
02/26/16-01:44:02 (tRAID): WARN: ACS: autoCodeSync(): Skipped since alt not communicating.
02/26/16-01:44:02 (tRAID): WARN: Controller entering CtlUnsupp lockdown state. (这里还是提示进入了控制器不支持的锁定模式)
4、根据上述信息判断极有可能是存储的背板坏了,申请背板到场处理。
5、更换背板后机器能够正常开启,关机,插回硬盘及扩展柜接线,先开扩展柜的电然后再开控制柜的电,检测阵列状态如下:(提示阵列的硬盘丢失),这里先收集一份存储日志All support data(很关键!)
更换背板很简单,把框子前面的上下8个螺丝拧下,前面4个拧下,向前一提就出来了。
6、打开DS manager的诊断工具(就是点击 Need Attention),提示要拨除硬盘要删除对应的array信息
7、接下来的操作存在风险(虽然个人认为很小),需要和客户沟通好,客户同意后方可进行操作。
(1)把硬盘拨除,
(2)删除受影响的阵列信息,提示相关的LUN 映射关系会消除,之前收集存储日志的重要性在这就体现出来了。
(3)逐个重新插入硬盘
(4)在阵列界面导入存储
(5)对照之前的存储日志host mapping 映射关系,重新映射LUN。
8、与客户确认后,接回主机端口光纤线,主机端扫描磁盘,至此故障解决。
总结 :1、两个控制器同时物理损坏的可能性较小,申请备件是要注意;2、一定要做好线缆与硬盘的标记,收集好日志。3、尽量对设备进行擦除操作。