什么是HBase?

HBase是一种非关系型数据库(NoSQL)。 “NoSQL"是一个通用词表示数据库不是RDBMS(关系型数据库管理系统),后者支持 SQL 作为主要访问手段。有许多种 NoSQL 数据库: BerkeleyDB 是本地 NoSQL 数据库例子, 而 HBase 是大型分布式数据库。 从技术上来说, HBase 更像是"数据存储(Data Store)” 多于 “数据库(Data Base)”。因为缺少很多RDBMS特性, 如列类型,第二索引,触发器,高级查询语言等.

然而, HBase 有许多特征同时支持线性化和模块化扩充。 HBase 集群通过增加RegionServers进行扩充。 它可以放在普通的服务器中。


大:一个表可以有数十亿行,上百万列;

无模式:每行都有一个可排序的主键和任意多的列,列可以根据需要动态的增加,同一张表中不同的行可以有截然不同的列;


面向列:面向列(族)的存储和权限控制,列(族)独立检索;


稀疏:对于空(null)的列,并不占用存储空间,表可以设计的非常稀疏;


数据多版本:每个单元中的数据可以有多个版本,默认情况下版本号自动分配,是单元格插入时的时间戳;


数据类型单一:Hbase中的数据都是字符串,没有类型。这让它很适合高速计数聚合类任务。


自动分区: HBase 表通过region分布在集群中。数据增长时,region会自动分割并重新分布。


RegionServer 自动故障转移


Hadoop/HDFS 集成: HBase 支持本机外HDFS 作为它的分布式文件系统。


MapReduce: HBase 通过MapReduce支持大并发处理, HBase 可以同时做源和目标.


什么时候用 HBase?

HBase不适合所有问题.

首先,确信有足够多数据,如果有上亿或上百亿行数据,HBase是很好的备选。 如果只有上千或上百万行,则用传统的RDBMS可能是更好的选择。因为所有数据可以在一两个节点保存,集群其他节点可能闲置。

其次,确信可以不依赖所有RDBMS的额外特性 (列数据类型, 第二索引, 事物,高级查询语言等.) 一个建立在RDBMS上应用,如不能仅通过改变一个JDBC驱动移植到HBase。相对于移植, 需考虑从RDBMS 到 HBase是一次完全的重新设计。

第三, 确信你有足够硬件。

HBase的重要进程


管理meta表还其他表结构命名空间

管理Hregionserver


接收客户端请求


表的创建和删除


一般和namenode在一个节点上

HRegionserver 管理region拆分合并

memstore写入Hfile


表级操作


负载均衡


一般和datanode在同一节点上


memstore
数据默认存到内存memstore
memstore达到阀值把数据存到本地Hfile中