Hbase概念:
简单来说,Hbase是Hadoop Database,是一个具备 高可靠性、高性能、面向列、可伸缩、实时读写的分布式数据。
它基于Hadoop HDFS做分布式存储,利用MapReduce进行数据分析,利用Zookeeper进行分布式协作服务。
Hbase数据模型:
Row Key:
1.行的唯一标识,类似于主键
2.按照字典序进行排列存储
3.最大长度是64KB,但是建议长度是10-100byte。
Column Family(列族):
1.表示一组列的集合(CF1,CF2,CF3)
2.在hbase中想要使用列,必须要指定列族
3.列必须要归属于某一个列族,一个列族可以有多个列成员,新的列族成员可以随后按需动态加入。
4.列族需要在表定义的时候预先给出,而列不需要。
5.列族是存储,权限控制,调优的最小单元。
6.HBase把同一列族里面的数据存储到同一个目录下,由几个文件保存。
Time Stamp:
1.在hbase中每个cell存储单元对同一份数据有多个版本,根据唯一的时间戳来区分每个版本之间的差异,不同版本的数据按照时间倒叙排列,最新的数据版本排在最前面。
2.timestamp默认使用的是系统时间,是毫秒值,一般不去改变。
Qulifier:
1.列名,使用时必须加前缀列族
cell:
1.由行和列唯一确定的一个单元格(rowkey + column family+qulifier+timestamp)。
2.cell中的数据是没有类型的,全部都是字节数组。
HLog(WAL log):
1.HLog文件就是一个普通的Hadoop Sequence File,Sequence File 的Key是HLogKey对象,HLogKey中记录了写入数据的归属信息,除了table和region名字外,同时还包括 sequence number和timestamp,timestamp是” 写入时间”,sequence number的起始值为0,或者是最近一次存入文件系统中sequence number
2.HLog SequeceFile的Value是HBase的KeyValue对象,即对应HFile中的KeyValue。
Hbase架构图:
HBase的四大角色:
Client:
1.包含访问HBase的接口并维护cache来加快对HBase的访问。
Zookeeper:
1.保证任何时候,集群中只有一个活跃的master
2.存储所有的Region的寻址入口
3.实时监控Region Server的上线和下线信息,并实时通知Master
4.存储HBase的schema和table元数据
HMaster:
1.为HRegionServer分配region
2.负责RegionServer的负载均衡
3.发现失效的RegionServer并重新分配其上的region
4.管理用户对table的增删改操作
RegionServer:
1.RegionServer维护region,处理对这些region的IO请求
2.RegionServer负责切分在运行过程中变得过大的region
HBase的组件:
Region(表):
1.Hbase自动把表水平划分成多个区域(region),每个region会保存一个表里面某段连续的数据。
2.每个表一开始只有一个region,随着数据不断插入表,region不断增大,当增大到一个阈值的时候,region就会等分为两个新的region(裂变)
3.当table中的行不断增多,就会有越来越多的region。这样一张完整的表被保存在多个Regionserver上。
store(列族):
1.一个region由多个store组成,一个store对应一个CF(列族)
Memstore(写缓存)与storefile(持久化的存储文件):
1.store包括位于内存的memstore和位于磁盘的storefile,写操作先写入memstore,当memstore中的数据达到某个阈值,HRegionServer会启动flashcache进程,写入storefile,每次写入形成单独的一个storefile。
2.当storefile文件的数量增长到一定阈值后,系统会进行合并(minor,major compaction),在合并过程中会进行版本合并和删除工作(major),形成更大的storefile
3.当一个region所有的storefile的大小和数量超过一定的阈值后,会把当前的region分割为两个,并由hmaster分配到相应的regionserver服务器,实现负载均衡
blockcache(读缓存):
1.客户端检索数据,先在memestore中找,找不到去blockcache,找不到再找storefile
2.存储在storefile中的数据会在读取完毕后存储在blockcache中,blockcache中会对读取频次进行排序,当blockcache中的数据满了后,会采取LRU的淘汰策略。
HRegion是HBase中分布式存储和负载均衡的最小单元,最小单元就表示不同的HRegion可以分布在不同的HRegion server上。
HRegion由一个或者多个Store组成,每个store保存一个column family。
每个Store又由一个memStore和0至多个StoreFile组成。如图:StoreFile以File格式保存在HDFS上。