一 HBase介绍及应用
HBase的特点:
1.容量大 HBase单表可以有百亿行、百亿列,数据矩阵横向和纵向两个维度所支持的数据量级都非常具有弹性
2.面向列 列式存储其数据在表中是按照某列存储的,这样在查询中只需要少数几个字段的时候,能大大减少读取的数据量。HBase是面向列的存储和权限控制,并支持独立检索
3.多版本 HBase每-一个列的数据存储有多 个版本。
4.稀疏性 为空的列并不占用存储空间,表的设计的非常稀疏
5.扩展性 底层依赖HDFS
6.高可靠性 WAL机制保证了数据写入时不会因集群异常而导致写入数据丢失Replication机制保证了数据在集群出现严重的问题时,数据不会发生丢失或损害。HBase底层依赖HDFS,HDFS本身也有备份。
7 高性能 底层的LSM数据结构和Rowkey有序排列等架构上的独特设计,使得HBase具有非常高的写入性能。region切分,主键索引和缓存机制使得HBase在寒凉数据下具有一定的随机读取性能,该性能针对Rowkey的查询能达到毫秒级别。
一个字段有多个版本
二 HBase的概念与定位
三 HBase架构体系与设计模型
ZooKeeper:分布式计算框架,需要协调集群上只能有一个Master,选举出一个Master
Master: RS向他定时报告文件是否有问题
RegionServer:负责表的管理和文件的管理
HDFS :文件都放在这里
HBase数据模型是按照列来存的