1 硬件级别故障

1.1 Gbase数据节点硬件级别故障

现象描述

Gbase单节点宕机或Hang住。

现象分析

Gbase数据节点主机因电源模块故障、主板等硬件原因导致宕机;另外还包括本地磁盘故障、对外服务网络中断、Raid卡故障所有通道连接中断等系统无法正常对外提供服务的情况。

应急操作流程

Gbase集群允许一台机器脱离集群,带病运行一段时间,但无法长期运行,需要尽快停止业务,对故障硬件进行修复。建议处置方法:

1)运行部门联系开放平台确认问题,并进行后续处理;
2)开放平台通知设备维护厂商现场支持,进行故障硬件维修;(10分钟)
3)运行部门停止故障集群上的作业。(取决于当时任务的大小,通常在1小时-4小时之间)
4)硬件厂商修复故障机器。(4-8小时)
5)GBase现场支持启动数据库服务,进行数据同步等状态检查,如有异常进行数据修复。(30分钟)
6)运行部门启动集群作业。

1.2 加载机硬件级别故障

现象描述

加载机宕机或Hang住。

现象分析

加载机主机因电源模块故障、主板等硬件原因导致宕机;另外还包括本地磁盘故障、对外服务网络中断、Raid卡故障所有通道连接中断等系统无法正常对外提供服务的情况。

应急操作流程

目前大数据平台应用架构实现加载机高可用,8台加载机任意一台或多台(非全部)出现故障,不会引起应用中断。建议处置方法:

1)运行部门联系开放平台确认问题,并进行后续处理;
2)开放平台通知设备维护厂商现场支持,进行故障硬件维修;(10分钟)
3)硬件厂商修复故障机器。(4-8小时)
4)GBase现场支持或运行部门管理员启动加载机上加载、应用服务等。(30分钟)

2. 操作系统级别故障

2.1 Gbase数据节点操作系统级别故障

2.1.1 操作系统损坏

现象描述

单节点操作系统损坏。

现象分析

Gbase数据节点Raid卡故障或操作系统故障,导致系统无法提供服务,需要重新安装操作系统。

应急操作流程

Gbase集群允许一台机器脱离集群,带病运行一段时间,但无法长期运行,需要尽快停止业务,对故障机器进行修复。可以使用预先准备好的备用机加入Gbase集群,减少安装操作系统的时间,缩短修复过程。建议处置方法:

1)运行部门联系开放平台确认问题,并进行后续处理;
2)设置备用机,准备好加入集群。(10分钟)
3)运行部门停止故障集群上的作业。(取决于当时任务的大小,通常在1小时-4小时之间)
4)GBase现场支持停止故障机,配置备机IP,进行Gbase数据同步;(根据数据量大小,通常在12-24小时之间)
5)GBase现场支持启动Gbase集群。(20分钟)
6)运行部门启动集群作业。

2.1.2. 文件系统故障

现象描述

文件系统或者逻辑卷故障。

现象分析

本地磁盘、存储磁盘损坏,导致文件系统或者逻辑卷故障,以及空间满等,导致应用数据对磁盘读写异常。

应急操作流程

本地磁盘故障,导致系统io读写异常,不能正常对外服务。建议处置记录方法:

1)运行部门联系开放平台确认问题,并进行后续处理;
2)开放平台通知硬件维保厂商,检查硬件日志,定位问题;
3)尝试登陆系统,检查系统日志及磁盘读写情况;
4)一般情况下本地硬盘使用Raid5,出现该场景问题的几率很低,硬件故障可能性较大;
5)硬件厂商更换故障磁盘;
6)如果文件丢失,使用备份文件进行恢复。Gbase数据库文件损坏,使用Gbase同步功能进行修复。
7)GBase现场支持启动服务,观察问题是否解决。

2.2.加载机操作系统级别故障

2.2.1.操作系统损坏

现象描述

单节点操作系统损坏。

现象分析

Gbase数据节点Raid卡故障或操作系统故障,导致系统无法提供服务,需要重新安装操作系统。

应急操作流程

目前大数据平台应用架构实现加载机高可用,8台加载机任意一台或多台(非全部)出现故障,不会引起应用中断。建议处置方法:

1)运行部门联系开放平台确认问题,并进行后续处理;
2)开放平台重新安装操作系统。(1小时)
3)开放平台配置IP、部署GBase加载服务、客户端、应用服务等。(1小时)
4)GBase现场支持或运行部门管理员启动该加载机服务。

2.2.2.文件系统故障

现象描述

文件系统或者逻辑卷故障。

现象分析

本地磁盘、存储磁盘损坏,导致文件系统或者逻辑卷故障,以及空间满等,导致应用数据对磁盘读写异常。

应急操作流程

大数据平台应用架构实现加载机高可用,8台加载机任意一台或多台(非全部)出现故障,不会引起应用中断。建议处置记录方法:

1)运行部门联系开放平台确认问题,并进行后续处理;
2)开放平台通知硬件维保厂商,检查硬件日志,定位问题;
3)尝试登陆系统,检查系统日志及磁盘读写情况;
4)一般情况下本地硬盘使用Raid5,出现该场景问题的几率很低,硬件故障可能性较大;
5)硬件厂商更换故障磁盘;
6)GBase现场支持或运行部门管理员启动服务,观察问题是否解决。