背景:
某客户一套SVC集群共6个node,其中一个node脱离集群,业务发生短暂切换后恢复正常。
(服务助手显示node1丢失)
处理步骤:
1、登陆SVC查看事件有1195代码的事件,即节点脱机超过30分钟。
查看SVC液晶面板,其余5个显示1195, 脱机节点显示 1203
(查看1203错误信息为 检查到FC通道有异常)
2、分别登陆SAN交换机查看4个端口的状态都不正常(MDS交换机,init状态),拨线发现都有光。
交换机端几乎不可能同时出两台交换机4个端口故障,光纤线同理,怀疑NODE的硬件有问题,接显示器查看 有 kernel panic!!显示无法操作!!
3、目前只能重启节点,拨除光纤线以及管理网线(避免启动过程中对其它节点造成影响),保留用于检测UPS的串口线。强接开机键关机,然后再开机。大约10分钟后SVC软件启动完成,提示如下:
4、将节点重新添加回去SVC集群,对业务基本无影响(成功的话,负载会切换部分到该节点,应用一般不会感知),添加时间一般不会超过30分钟。这些信息需要和客户交待清楚。一般直接插回光纤线和网线会,节点会自动加入SVC集群,但本次故障中,由于节点非正常挂死,导致不能自动添加回SVC集群。报错代码是578,脱机节点自动 恢复失败。点击该错误信息,运行修复过程
5、按要求除去节点的系统数据,注意一定在左上角确认节点信息,否帽后果严重!!(在服务助手进行如下操作。)
6、节点变成候选状态后,返回SVC 的管理GUI,点下一步,系统提示正在将节点重新添加到系统(一般30分钟内会完成,如30分钟后仍是该状态,点取消然后手动将节点加入)
7、选择“监控”-“系统,原来node所在的iogroup 会提示有个空槽,选择将候选节点加回系统,整个过程不会超过30分钟,一般几分钟就搞定了。群集状态正常后,切换到“性能”项,可以看到node1有业务读写 了。
最后,收集日志,“支持”,下载支持包,选第3个(常规则支持包+所有节点的当前状态)