greenplum postgresql 架构 greenplum position

转载

柳随风 2023-07-12 10:57:28

1、列出当前down的segment节点。

检查方法：

连接到postgres数据库，执行：

SELECT * FROM gp_segment_configuration    
WHERE status <> 'u';

判断方法：

有返回，表示该segment已经down了。

事件级别：

warning。

如果有mirror节点，不影响使用。

重要程度：

重要。

监控频率：

5-10分钟。

处理方法：

1、检查DOWN segment主机是否正常。

2、检查DOWN segment的primary, mirror节点的pg_log日志。找出原因。

3、如果没有异常，使用gprecoverseg把DOWN的节点拉起来。

2、列出当前处于change tracking的segment节点。

检查方法：

连接到postgres数据库，执行：

SELECT * FROM gp_segment_configuration    
WHERE mode = 'c';

判断方法：

如果有记录返回，表示有处于change tracking的segment。

事件级别：

warning。

重要程度：

重要

监控频率：

5-10分钟。

处理方法：

1、检查DOWN segment主机是否正常。

2、检查DOWN segment的primary, mirror节点的pg_log日志。找出原因。

3、如果没有异常，使用gprecoverseg把DOWN的节点拉起来。

3、列出当前处于re-syncing状态的segment节点。

检查方法：

连接到postgres数据库，执行：

SELECT * FROM gp_segment_configuration    
WHERE mode = 'r';

需要加入时间条件。判断是否长时间处于r状态。

判断方法：

如果有记录返回，表示有处于re-syncing的segment。

事件级别：

warning。

重要程度：

重要

监控频率：

5-10分钟。

处理方法：

如果节点很长时间处于re-synched状态。检查SEGMENT的primary, mirror节点的pg_log，排查错误。

4、列出当前角色未处于优先角色的节点的segment节点。

检查方法：

连接到postgres数据库，执行：

SELECT * FROM gp_segment_configuration    
WHERE preferred_role <> role;

判断方法：

如果有记录返回，表示当前集群可能处于not balanced状态。

事件级别：

warning。

重要程度：

重要

监控频率：

5-10分钟。

处理方法：

如果当前集群处于not balanced状态，某个主机的primary节点可能更多，负担较重，影响性能。

建议找到维护窗口，重启数据库集群。

5、检测所有节点是否可达，确保QD(query dispatching)正常。

检查方法：

连接到postgres数据库，执行：

SELECT gp_segment_id, count(*)    
FROM gp_dist_random('pg_class')    
GROUP BY 1;

判断方法：

正常情况下，每个节点返回一条记录，如果执行失败，表示有不可达的segment，执行SQL是QD阶段会失败。

事件级别：

critical。

重要程度：

严重

监控频率：

5-10分钟。

处理方法：

如果查询失败，表示某些segment节点的QD异常，这是一个罕见错误。需要检查异常节点(不能触及的segments)的硬件、网络是否正常。

6、列出当前down的segment节点。

检查方法：

连接到postgres数据库，执行：

SELECT pid, state FROM pg_stat_replication;

判断方法：

如果state不是'STREAMING'，或者没有记录返回，那么说明master standby节点异常。

事件级别：

warning。

重要程度：

重要

监控频率：

5-10分钟。

处理方法：

检查master, master standby节点的pg_log是否有异常日志。

如果没有unexpected错误，并且机器正常。那么使用gpinitstandby修复standby。

GPDB 4.2以及以前的版本，需要重启GPDB集群。

7、检查master节点是否up并正常提供服务。

检查方法：

连接到postgres数据库，执行：

SELECT count(*) FROM gp_segment_configuration;

判断方法：

QUERY正常返回，表示master节点正常。

事件级别：

critical。

重要程度：

严重

监控频率：

5-10分钟。

处理方法：

如果这个QUERY不能正常执行，说明active master节点可能DOWN了。

重试若干次，如果都异常，关闭active master（一定要确保关闭无误），切换到standby master。

8、列出master, segment, standby, mirror状态的其他方法

使用命令查询master, segment, standby, mirror状态

1、master和segment状态

gpstate  
  
或  
  
gpstate -s

2、segment mirror状态

gpstate -m

3、primary和mirror mapping状态

gpstate -c

4、master standby状态

gpstate -f

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

上一篇：ha模式 spark sparkyarn模式

下一篇：hadoop ha存储原理 hdfs hadoop存储分析

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯