HBase的批量加载: 将一批数据一次性全部写入到HBase中

原生写入流程: 读取数据 --> hbase的内存 --> storeFile ---> HFile ---> 分裂 到更多的Region中

HBase的bulk load的应用场景: 适合于需要一次性写入大量的数据场景

演示步骤:

将CSV文件转换为HFile文件格式

package com.itheima.hbase.bulkload;
import org.apache.hadoop.hbase.client.Put;
import org.apache.hadoop.hbase.io.ImmutableBytesWritable;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;
import java.io.IOException;
public class BulkLoadMapper extends Mapper<LongWritable,Text,ImmutableBytesWritable,Put> {
 ImmutableBytesWritable k2 = new ImmutableBytesWritable();
 @Override
 protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {
 //1. 获取一行数据
 String line = value.toString();
 //2. 判断数据是否为空
 if(line != null && !"".equals(line.trim())){ // 注意: "" 前面千万别丢 !
 //3. 执行数据切割操作. 从中找到k2和v2
 String[] fields = line.split(",");
 // 3.1 获取 rowkey,封装k2
 k2.set(fields[0].getBytes());
 // 3.2 获取 行数据, 封装 v2 put对象
 Put v2 = new Put(fields[0].getBytes());
 v2.addColumn("C1".getBytes(),"code".getBytes(),fields[1].getBytes());
 v2.addColumn("C1".getBytes(),"rec_account".getBytes(),fields[2].getBytes());
 v2.addColumn("C1".getBytes(),"rec_bank_name".getBytes(),fields[3].getBytes());
 v2.addColumn("C1".getBytes(),"rec_name".getBytes(),fields[4].getBytes());
 v2.addColumn("C1".getBytes(),"pay_account".getBytes(),fields[5].getBytes());
 v2.addColumn("C1".getBytes(),"pay_name".getBytes(),fields[6].getBytes());
 v2.addColumn("C1".getBytes(),"pay_comments".getBytes(),fields[7].getBytes());
 v2.addColumn("C1".getBytes(),"pay_channel".getBytes(),fields[8].getBytes());
 v2.addColumn("C1".getBytes(),"pay_way".getBytes(),fields[9].getBytes());
 v2.addColumn("C1".getBytes(),"status".getBytes(),fields[10].getBytes());
 v2.addColumn("C1".getBytes(),"timestamp".getBytes(),fields[11].getBytes());
 v2.addColumn("C1".getBytes(),"money".getBytes(),fields[12].getBytes());
 //4. 写出去
 context.write(k2,v2);
 }
 }
}
  • 驱动类
package com.itheima.hbase.bulkload;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.hbase.HBaseConfiguration;
import org.apache.hadoop.hbase.TableName;
import org.apache.hadoop.hbase.client.Connection;
import org.apache.hadoop.hbase.client.ConnectionFactory;
import org.apache.hadoop.hbase.client.Put;
import org.apache.hadoop.hbase.client.Table;
import org.apache.hadoop.hbase.io.ImmutableBytesWritable;
import org.apache.hadoop.hbase.mapreduce.HFileOutputFormat2;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.TextInputFormat;
public class BulkLoadDriver {
 public static void main(String[] args) throws Exception {
 //1. 创建Job对象
 Configuration conf = HBaseConfiguration.create();
 conf.set("hbase.zookeeper.quorum","node1:2181,node2:2181,node3:2181");
 Job job = Job.getInstance(conf, "BulkLoad");
 //2. 设置提交Yarn的必备参数
 job.setJarByClass(BulkLoadDriver.class);
 //3. 设置MR的八大步骤
 // 3.1 设置输入类和输入的路径
 job.setInputFormatClass(TextInputFormat.class);
 TextInputFormat.addInputPath(job,new Path("hdfs://node1:8020/hbase/bulkload/input/bank_record.csv"));
 // 3.2 设置 Mapper类 和 输出 k2和v2
 job.setMapperClass(BulkLoadMapper.class);
 job.setMapOutputKeyClass(ImmutableBytesWritable.class);
 job.setMapOutputValueClass(Put.class);
 // 3.3 设置shuffle: 分区 3.4 排序 3.5 规约 3.6 分组 (此处全部都是默认值)
 // 3.7 设置Reduce 和 输出 k3 和 v3的类型: 没有reduce
 job.setNumReduceTasks(0);
 // 建议: 不管有没有reduce, 都设置其k3和v3的类型, 如果没有reduce, 直接使用k2和v2的类型
 job.setOutputKeyClass(ImmutableBytesWritable.class);
 job.setOutputValueClass(Put.class);
 // 3.8 设置输出类 和 输出的路径: 输出 HFile类型
 job.setOutputFormatClass(HFileOutputFormat2.class);
 // 3.8.1 设置HFile的相关信息: 表信息 Region信息
 Connection hbaseConn = ConnectionFactory.createConnection(conf);
 Table table = hbaseConn.getTable(TableName.valueOf("TRANSFER_RECORD"));
 HFileOutputFormat2.configureIncrementalLoad(job,table,hbaseConn.getRegionLocator(TableName.valueOf("TRANSFER_RECORD")));
 // 3.8.2 设置HFile的输出路径地址
 HFileOutputFormat2.setOutputPath(job,new Path("hdfs://node1:8020/hbase/bulkload/output"));
 // 4 提交任务
 boolean flag = job.waitForCompletion(true);
 System.exit(flag ? 0 : 1);
 }
}

加载HFile到HBase中

hbase org.apache.hadoop.hbase.tool.LoadIncrementalHFiles 数据路径 HBase表名

注意:

数据路径 指的就是MR的输出路径

hbase org.apache.hadoop.hbase.tool.LoadIncrementalHFiles hdfs://node1.itcast.cn:8020/hbase/bulkload/output TRANSFER_RECORD