前言

本文隶属于专栏《大数据异常问题汇总》,该专栏为笔者原创,引用请注明来源,不足和错误之处请在评论区帮忙指出,谢谢!


问题一:业务表出现大量空Region

应用背景

业务流水表的Rowkey设计是按照字典序严格递增的,采用分桶机制由多个进程向一个或多个独享的分桶写人数据。

产生问题

随着数据持续不断地人库到 HBase 表,该表的 Region 不断发生分裂,分裂后前一个 Region 不再会有数据写人,数据继续写入新生成的 Region。

一段时间后,当一个Region中的数据全部过期,RegionServer触发 major compaction 后,Region 中的数据就会被物理删除,此时该 Region 就会变成一个没有用的空 Region。

当集群中的空 Region 过多时,会给集群管理带来麻烦,meta 表持续增大,增大了 HMaster 节点的压力。

解决措施

HBase 支持在线合并 Region,我们只需要例行化检查该表中 Region 的状态,如果出现多个连续空 Region 时,我们将这些空 Region 合并成一个 Region 即可。


问题二:业务 HBase 客户端 RPC 连接异常关闭

应用背景

业务系统数据是从 MySQL 同步人库 HBase,同步入库频率跟业务系统的用户使用频率直接相关。

产生问题

我们从业务 HBase 客户端日志中观察到在某些时间段总是打印 RPC 连接异常关闭。

解决措施

调整 HBase 客户端参数,将 RPC 超时时间从 60s 调整到 180s,同时客户端强制每分钟或是满 1000 条记录就执行一次 flush commit,从 DB 同步一次 HBase,保证 RPC 长连接不会自动关闭。


问题三:单台 RegionServer 的 I/O 使用率一直为100%,HBase 集群请求量为0

应用背景

为了提高数据的人库速率,业务 HBase 客户端采用 putlist 接口减少客户端与服务端 RPC 连接的次数。

产生问题

当单台 RegionServer 出现磁盘异常时,某个磁盘 IO 使用率一直 100% 时,整个集群出现不可用,集群请求量直接为0。

解决措施

对集群机器增加磁盘 IO 异常的监控,发现有分区磁盘使用率过高,就自动将该机器从集群中剔除。