hbase数据模型的基本概念 hbase 数据模型

关注 mob64ca1401b651

文章目录

表
行健
列族
单元格

hbase数据模型的基本概念 hbase 数据模型

转载

mob64ca1401b651 2023-09-26 22:11:25

文章标签 hbase数据模型的基本概念大数据 java 数据表名 文章分类 Hbase 数据库

首先来先理解一个概念：HBase是一种列式存储的分布式数据库。

表

在HBase中数据以表的形式存储。使用表的主要原因是把某些列组织起来一起访问，同一个表中的数据通常是相关的，通过列族进一步把一些列组织起来一起访问。用户可以通过命令行或者Java API来创建表。表明通常使用Java Stirng 类型或者byte数组表示，表名作为HDFS存储路径的一部分来使用，因此必须要符合文件名规范，所以构成表名的字符是有限制的。可以直接查看底层存储系统，在HDFS中可以看到每个表的表名都作为独立的目录结构，在某些情况下，用户可能需要查看这部分信息。

虽然理论上HBase的表是由行和列组成的，但是从物理结构上看，表存储在不同的分区，即不同的Region。每个Region只在一个RegionServer中提供服务，而Region直接向客户端提供存储和读取服务。

行健

RowKey按照字典排序由低到高存储在表中，在Hbase中，RowKey是唯一的索引；

为了高效检索数据，应仔细设计Rowkey以获得最高的查询性能：首先Rowkey被冗余存储，所以不宜过长，过长的Rowkey会占用大量的空间同时会降低检索效率；其次Rowkey应该尽量分布均匀，这样不会产生热点现象；最后是RowKey唯一原则，必须在设计上保证它的唯一性；

列族

HBase中的列族是一些列的集合。一个列族中的所有列成员有着相同的前缀。列使用Column:Qualifier来区分列；

在创建表的时候，至少要指定一个列族，新的列族可以随后按需，动态地加入，但是修改列族要先停用表。应该将经常一起查询的列放在一个列族中，合理划分列族将减少查询时加载到缓存的数据，提高查询的效率，但是也不要有太多的列族，因为跨列族访问时非常低效的。

单元格

HBase中的单元格是由行健，列族，列，时间戳唯一确定。单元格内容是不可分割的字节数组。每个单元格都保存着同一份数据的多个版本，不同时间版本的数据按照时间顺序倒序排列，最新时间的数据排在最前面，时间戳是64为的整数，可以由客户端在写入数据时候赋值，也可以由RegionServer自动赋值。

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

赞
收藏
评论
分享
举报

上一篇：typescript 自定生成声明文件命令 typescript声明对象

下一篇：JAVA代码如何获取达梦数据库的数据量查看达梦数据库实例

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

举报文章

请选择举报类型

内容侵权涉嫌营销内容抄袭违法信息其他

具体原因

包含不真实信息涉及个人隐私

原文链接（必填）

补充说明

0/200

上传截图

格式支持JPEG/PNG/JPG，图片不超过1.9M

已经收到您得举报信息，我们会尽快审核

鸿蒙开发者社区

WOT技术大会

公众号矩阵

移动端

短视频免费课程课程排行直播课软考学堂

全部课程厂商认证 IT技术 24年11月软考 PMP项目管理免费题库

在线学习

文章资源问答课堂专栏直播

51CTO

鸿蒙开发者社区

51CTO技术栈

51CTO官微

51CTO学堂

51CTO博客

CTO训练营

鸿蒙开发者社区订阅号

51CTO软考

51CTO学堂APP

51CTO学堂企业版APP

鸿蒙开发者社区视频号

51CTO软考题库

51CTO博客

首页
关注
排行榜
精品课程
免费资料
软考题库

科目全、试题精、讲解专业，扫码免费刷

搜索历史清空

热门搜索

查看【】的结果
写文章
创作中心
登录注册