1、列出当前down的segment节点。
检查方法:
连接到postgres数据库,执行:
SELECT * FROM gp_segment_configuration
WHERE status <> 'u';
判断方法:
有返回,表示该segment已经down了。
事件级别:
warning。
如果有mirror节点,不影响使用。
重要程度:
重要。
监控频率:
5-10分钟。
处理方法:
1、检查DOWN segment主机是否正常。
2、检查DOWN segment的primary, mirror节点的pg_log日志。找出原因。
3、如果没有异常,使用gprecoverseg把DOWN的节点拉起来。
2、列出当前处于change tracking的segment节点。
检查方法:
连接到postgres数据库,执行:
SELECT * FROM gp_segment_configuration
WHERE mode = 'c';
判断方法:
如果有记录返回,表示有处于change tracking的segment。
事件级别:
warning。
重要程度:
重要
监控频率:
5-10分钟。
处理方法:
1、检查DOWN segment主机是否正常。
2、检查DOWN segment的primary, mirror节点的pg_log日志。找出原因。
3、如果没有异常,使用gprecoverseg把DOWN的节点拉起来。
3、列出当前处于re-syncing状态的segment节点。
检查方法:
连接到postgres数据库,执行:
SELECT * FROM gp_segment_configuration
WHERE mode = 'r';
需要加入时间条件。判断是否长时间处于r状态。
判断方法:
如果有记录返回,表示有处于re-syncing的segment。
事件级别:
warning。
重要程度:
重要
监控频率:
5-10分钟。
处理方法:
如果节点很长时间处于re-synched状态。检查SEGMENT的primary, mirror节点的pg_log,排查错误。
4、列出当前角色未处于优先角色的节点的segment节点。
检查方法:
连接到postgres数据库,执行:
SELECT * FROM gp_segment_configuration
WHERE preferred_role <> role;
判断方法:
如果有记录返回,表示当前集群可能处于not balanced状态。
事件级别:
warning。
重要程度:
重要
监控频率:
5-10分钟。
处理方法:
如果当前集群处于not balanced状态,某个主机的primary节点可能更多,负担较重,影响性能。
建议找到维护窗口,重启数据库集群。
5、检测所有节点是否可达,确保QD(query dispatching)正常。
检查方法:
连接到postgres数据库,执行:
SELECT gp_segment_id, count(*)
FROM gp_dist_random('pg_class')
GROUP BY 1;
判断方法:
正常情况下,每个节点返回一条记录,如果执行失败,表示有不可达的segment,执行SQL是QD阶段会失败。
事件级别:
critical。
重要程度:
严重
监控频率:
5-10分钟。
处理方法:
如果查询失败,表示某些segment节点的QD异常,这是一个罕见错误。需要检查异常节点(不能触及的segments)的硬件、网络是否正常。
6、列出当前down的segment节点。
检查方法:
连接到postgres数据库,执行:
SELECT pid, state FROM pg_stat_replication;
判断方法:
如果state不是'STREAMING',或者没有记录返回,那么说明master standby节点异常。
事件级别:
warning。
重要程度:
重要
监控频率:
5-10分钟。
处理方法:
检查master, master standby节点的pg_log是否有异常日志。
如果没有unexpected错误,并且机器正常。那么使用gpinitstandby修复standby。
GPDB 4.2以及以前的版本,需要重启GPDB集群。
7、检查master节点是否up并正常提供服务。
检查方法:
连接到postgres数据库,执行:
SELECT count(*) FROM gp_segment_configuration;
判断方法:
QUERY正常返回,表示master节点正常。
事件级别:
critical。
重要程度:
严重
监控频率:
5-10分钟。
处理方法:
如果这个QUERY不能正常执行,说明active master节点可能DOWN了。
重试若干次,如果都异常,关闭active master(一定要确保关闭无误),切换到standby master。
8、列出master, segment, standby, mirror状态的其他方法
使用命令查询master, segment, standby, mirror状态
1、master和segment状态
gpstate
或
gpstate -s
2、segment mirror状态
gpstate -m
3、primary和mirror mapping状态
gpstate -c
4、master standby状态
gpstate -f