使用Java API与HBase集群交互时,需要先创建一个HTable的实例,再使用该实例提供的方法来进行插入/删除/查询等操作。要创建HTable对象,要先创建一个包含了HBase集群信息的配置实例Configuration conf,其一般创建方法如下:Configuration conf = HBaseConfiguration.create(); //设置HBase集群的IP和端口 con
一、Hbase体系结构                                                      
OpenTSDB源码详解之数据写入HBase【待完善】/** Constants used in various places. * 在不同的地方(类中)使用的常数 * */public final class Const {...} /** Maximum number of tags allowed per data point. * 每个数据点所允许的最大tags数...
原创 2022-01-28 09:29:05
212阅读
hbase-2.4.0源码阅读说明1 hbase作为数据库的特点1.1 先天缺陷: 缺失核心功能的分布式数据库1.2 主次不分: 为了提升写性能而严重降低读性能1.3 复杂凌乱: 从设计到实现没有一个要突出的主线功能2 源码阅读步骤和逻辑   最初在开始分析hadoop源码时,已做好了后续的源码阅读规划,hbase就是继hadoop之后要分析源码的软件.有关hbase源码阅读这里要首先明确一下
OpenTSDB源码详解之数据写入HBase【待完善】/** Constants used in various places. * 在不同的地方(类中)使用的常数 * */public final class Const {...} /** Maximum number of tags allowed per data point. * 每个数据点所允许的最大tags数...
原创 2021-07-08 11:50:51
669阅读
HBase是构建在Hadoop软件簇之上的数据库软件。它的目的是解决针对大数据随机、实时读写访问的问题,面临的环境是需要处理总计十亿级数目的行*百万级数目的列的大表集合。其理论基础来自Google的贡献:Bigtable: A Distributed Storage System for Structured Data。然后今年大家有福了,在六月份的SIG
转载 2023-07-12 22:00:20
43阅读
Hbase简介HBase – Hadoop Database,是一个高可靠性、高性能、面向列、可伸缩、 实时读写的分布式数据库 利用Hadoop HDFS作为其文件存储系统,利用Hadoop MapReduce来处理 HBase中的海量数据,利用Zookeeper作为其分布式协同服务 主要用来存储非结构化和半结构化的松散数据(列存NoSQL数据库)HBase数据模型命名空间 命名空间是对表的逻辑分
转载 2023-08-18 21:50:25
142阅读
       我们都知道,region在数据量大到一定程度的时候,会进行拆分(最开始由一个变成二个),而拆分的方式有三种,包括预拆分、自动拆分、手动强制拆分。下面就来介绍介绍拆分的方式。预拆分      预拆分(pre-splitting)就是在建表的时候就定义好了拆分点的 算法,所以叫预拆分。  &nbsp
转载 2023-07-28 12:44:06
68阅读
HBase源码分析(二) 2021SC@SDUSC 文章目录前言一、HRegionServer作用HRegionServer作用如下:二、对Client端代码分析1.put方法:2.用doput代码判断3.flushCommits方法如下:4.ConnectionImplementation的processBatch方法:过程如下:三.对Server端代码分析1.multi方法:2.batchMu
问题: 1.hbase的查询block cache,memstore,hfile的过程  2.hbase的写入wal,memstore,region,hfile,data block的过程 3.upsert和删除数据时,是新增还是修改标志位. 4.假设region server 有10台,salt 加盐5取余, 5个region后,怎么分配机器. 下面的*代表父子类继承关系.第二节
HTablePut操作获取RegionLocations总结设置HTable参数 - HBase写入性能优化DeleteGetScan HTableHTable作为客户端操作HBase数据的入口,是我们最常见的一个类。当向HBase 写入数据时, 都发生了写什么呢?Put操作获取RegionLocationsHTable中public void put(final List<Put>
转载 2023-09-20 06:38:49
73阅读
简介本文是需要用到hbase timestamp性质时研究源码所写.内容有一定侧重.且个人理解不算深入,如有错误请不吝指出.如何看源码hbase依赖很重,没有独立的client包.所以目前如果在maven中指定如下:<dependency> <groupId>org.apache.hbase</groupId> <artifactId>hbase
转载 2023-07-10 14:23:47
98阅读
简介本文是需要用到hbase timestamp性质时研究源码所写.内容有一定侧重.且个人理解不算深入,如有错误请不吝指出.如何看源码hbase依赖很重,没有独立的client包.所以目前如果在maven中指定如下:<dependency> <groupId>org.apache.hbase</groupId> <artifactId&gt
一、简介hbase是bigtable的开源山寨版本。是建立的hdfs之上,提供高可靠性、高性能、列存储、可伸缩、实时读写的数据库系统。它介于nosql和RDBMS之间,仅能通过主键(row key)和主键的range来检索数据,仅支持单行事务(可通过hive支持来实现多表join等复杂操作)。主要用来存储非结构化和半结构化的松散数据。与hadoop一样,Hbase目标主要依靠横向扩展...
转载 2021-08-30 11:21:14
171阅读
# HBase详解 HBase是一个高可扩展、分布式的开源NoSQL数据库。它建立在Hadoop文件系统(HDFS)之上,提供了实时读写、高可用性和强一致性的功能。本文将介绍HBase的基本概念、架构和使用方法,并提供一些代码示例。 ## HBase基本概念 ### 表(Table) HBase中的数据存储在表中,表由行(Row)和列(Column)组成,每个单元格(Cell)包含一个数据
原创 2023-07-31 17:14:44
49阅读
引言:    上篇文章“HBase1.x精通:详解HBase读缓存BlockCache(一)”主要讲解了HBase块缓存的机制和三种策略,我们生产环境当前用的版本是HBase1.2.5,它默认的读缓存策略是LruBlockCache,下面我就结合HBase1.2.5源码深入剖析LruBlockCache的实现。1.BlockCache初始化    当每个HRegionserver线程通过函数run
原创 2021-03-10 10:21:36
542阅读
一、hbase的底层结构Hbase的存储默认为hdfs的/hbase目录,可以通过hbase-sit.xml配置。 /hbase/archive (1) /hbase/corrupt (2) /hbase/data/default/TestTable/.tabledesc/.tableinfo.0000000001 (3) /hbase/data/default/TestTable/f
hbase compact流程较多,这里分章节介绍,首先介绍compact在regionserver中的调用流程,并不会涉及真正的compact读取合并文件的流程,后续介绍。在regionserver启动时,会初始化compactsplitthread以及CompactionChecker。/* * Check for compactions requests. * 检查合并请求
这里进入HBase的javaAPI章节进行学习,这里我会非常详细的讲述如何创建连接和基础的使用,以及一个小项目的学习。跟随着我往下看HBase的javaAPI一、API几个主要的Hbase API类和数据模型之间的的对应的关系:HBaseConfiguration:最简单的一个饿类,可以在进行连接的时候,指定一些简单的配置,比如URL地址,在哪里找HBase或者HBase 的一些配置等等HBase
转载 2023-09-01 14:54:18
26阅读
一、概述HBase官方提供了基于Mapreduce的批量数据导入工具:Bulk load和ImportTsv。关于Bulk load大家可以看下我另一篇博文。通常HBase用户会使用HBase API导数,但是如果一次性导入大批量数据,可能占用大量Regionserver资源,影响存储在该Regionserver上其他表的查询,本文将会从源码上解析ImportTsv数据导入工具,探究如何高效导入数
  • 1
  • 2
  • 3
  • 4
  • 5