HBASE分区写入 hbase分区大小

转载

技术博主 2023-07-30 17:05:41

文章标签 HBASE分区写入 hbase hadoop 大数据 apache 文章分类 Hbase 数据库

文章目录

Region Split

自定义分区
系统拆分

Region Split

Region 切分分为两种，创建表格时候的预分区即自定义分区，同时系统默认还会启动一个切分规则，避免单个 Region 中的数据量太大。

自定义分区

每一个 region 维护着 startRow 与 endRowKey，如果加入的数据符合某个 region 维护的rowKey 范围，则该数据交给这个 region 维护。那么依照这个原则，我们可以将数据所要投放的分区提前大致的规划好，以提高 HBase 性能。

1）手动设定预分区

create 'staff1','info', SPLITS => ['1000','2000','3000','4000']

2）生成 16 进制序列预分区

create 'staff2','info',{NUMREGIONS => 15, SPLITALGO => 'HexStringSplit'}

3）按照文件中设置的规则预分区
（1）创建 splits.txt 文件内容如下：

aaaa
bbbb
cccc
dddd

（2）然后执行：

create 'staff3', 'info',SPLITS_FILE => 'splits.txt'

4）使用 JavaAPI 创建预分区

HBASE分区写入 hbase分区大小_大数据

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.hbase.HBaseConfiguration;
import org.apache.hadoop.hbase.TableName;
import org.apache.hadoop.hbase.client.*;
import org.apache.hadoop.hbase.util.Bytes;
import java.io.IOException;

public class HBaseConnect {
    public static void main(String[] args) throws IOException {
        // 1.获取配置类
        Configuration conf = HBaseConfiguration.create();
        // 2.给配置类添加配置

        conf.set("hbase.zookeeper.quorum", "hadoop102,hadoop103,hadoop104");
        // 3.获取连接
        Connection connection =
            ConnectionFactory.createConnection(conf);
        // 3.获取 admin
        Admin admin = connection.getAdmin();
        // 5.获取 descriptor 的 builder
        TableDescriptorBuilder builder =
            TableDescriptorBuilder.newBuilder(TableName.valueOf("bigdata",
                "staff4"));
        // 6. 添加列族

        builder.setColumnFamily(ColumnFamilyDescriptorBuilder.newBuilder(
            Bytes.toBytes("info")).build());
        // 7.创建对应的切分
        byte[][] splits = new byte[3][];
        splits[0] = Bytes.toBytes("aaa");
        splits[1] = Bytes.toBytes("bbb");
        splits[2] = Bytes.toBytes("ccc");
        // 8.创建表
        admin.createTable(builder.build(), splits);
        // 9.关闭资源
        admin.close();
        connection.close();
    }
}

系统拆分

Region 的拆分是由 HRegionServer 完成的，在操作之前需要通过 ZK 汇报 master，修改对应的 Meta 表信息添加两列 info：splitA 和 info：splitB 信息。之后需要操作 HDFS 上面对应的文件，按照拆分后的 Region 范围进行标记区分，实际操作为创建文件引用，不会挪动数据。刚完成拆分的时候，两个 Region 都由原先的 RegionServer 管理。之后汇报给 Master，

由Master将修改后的信息写入到Meta表中。等待下一次触发负载均衡机制，才会修改Region的管理服务者，而数据要等到下一次压缩时，才会实际进行移动。
不管是否使用预分区，系统都会默认启动一套 Region 拆分规则。不同版本的拆分规则有差别。系统拆分策略的父类为 RegionSplitPolicy。0.94 版本之前 => ConstantSizeRegionSplitPolicy

（ 1 ）当 1 个 region 中的某个 Store 下所有 StoreFile 的总大小超过hbase.hregion.max.filesize （10G），该 Region 就会进行拆分。0.94 版本之后，2.0 版本之前 => IncreasingToUpperBoundRegionSplitPolicy

（ 2 ）当 1 个 region 中的某个 Store 下所有 StoreFile 的总大小超过Min(initialSize*R^3 ,hbase.hregion.max.filesize")，该 Region 就会进行拆分。其中 initialSize 的默认值为 2 * hbase.hregion.memstore.flush.size，R 为当前 Region Server 中属于该 Table 的Region 个数（0.94 版本之后）。
具体的切分策略为：
第一次 split：1^3 * 256 = 256MB
第二次 split：2^3 * 256 = 2048MB
第三次 split：3^3 * 256 = 6912MB
第四次 split：4^3 * 256 = 16384MB > 10GB，因此取较小的值 10GB
后面每次 split 的 size 都是 10GB 了。2.0 版本之后 => SteppingSplitPolicy

（3）Hbase 2.0 引入了新的 split 策略：如果当前 RegionServer 上该表只有一个 Region，按照 2 * hbase.hregion.memstore.flush.size 分裂，否则按照 hbase.hregion.max.filesize 分裂。这叫大道至简，学海抽丝。

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。