【摘要】在这个生产水平高速发展的今天,互联网每刻都会产生庞大的数据,我们将这类有意义的数据统称为大数据,为了将这类大数据用于各种行业里,我们就出现了大数据工程师,很多人都想了解有关于大数据工程师的内容,所以今天就来讲讲HBase技术的逻辑架构。

在分布式的生产环境中,HBase 需要运行在 HDFS 之上,以 HDFS 作为其基础的存储设施。HBase 的上层是访问数据的 Java API 层,供应用访问存储在 HBase 中的数据。HBase 的集群主要由 Master、Region Server 和 Zookeeper 组成,具体模块如图所示。


1、HBase技术的逻辑架构——Master

Master 主要负责表和 Region 的管理工作。

表的管理工作主要是负责完成增加表、删除表、修改表和查询表等操作。

Region 的管理工作更复杂一些,Master 需要负责分配 Region 给 Region Server,协调多个 Region Server,检测各个 Region Server 的状态,并平衡 Region Server 之间的负载。

当 Region 分裂或合并之后,Master 负责重新调整 Region 的布局。如果某个 Region Server 发生故障,Master 需要负责把故障 Region Server 上的 Region 迁移到其他 Region Server 上。

HBase 允许多个 Master 结点共存,但是这需要 Zookeeper 进行协调。当多个 Master 结点共存时,只有一个 Master 是提供服务的,其他的 Master 结点处于待命的状态。当正在工作的 Master 结点宕机时,其他的 Master 则会接管 HBase 的集群。

2、HBase技术的逻辑架构——RegionServer

HBase 有许多个 Region Server,每个 Region Server 又包含多个 Region。Region Server 是 HBase 最核心的模块,负责维护 Master 分配给它的 Region 集合,并处理对这些 Region 的读写操作。Client 直接与 Region Server 连接,并经过通信获取 HBase 中的数据。

HBase 釆用 HDFS 作为底层存储文件系统,Region Server 需要向 HDFS 写入数据,并利用 HDFS 提供可靠稳定的数据存储。Region Server 并不需要提供数据复制和维护数据副本的功能。

3、HBase技术的逻辑架构——Zookeeper

Zookeeper 的作用对 HBase 很重要。首先,Zookeeper 是 HBase Master 的高可用性(High Available,HA)解决方案。也就是说,Zookeeper 保证了至少有一个 HBase Master 处于运行状态。

Zookeeper 同时负责 Region 和 Region Server 的注册。HBase 集群的 Master 是整个集群的管理者,它必须知道每个 Region Server 的状态。

HBase 就是使用 Zookeeper 来管理 Region Server 状态的。每个 Region Server 都向 Zookeeper 注册,由 Zookeeper 实时监控每个 Region Server 的状态,并通知给 Master。这样,Master 就可以通过 Zookeeper 随时感知各个 Region Server 的工作状态。

以上就是有关于HBase技术的逻辑架构的全部内容了,从文章中我们就可以看出大数据工程师之类的行业有多么受欢迎,所以想从事大数据行业的小伙伴们就要好好理解小编为大家整理的文章内容了,我们会从各种方面分析大数据行业的内容,环球网校小编希望大家的学习之路顺利。