hive和hbase整合

总结:

hive和hbase 底层都依赖HDFS

hive和hbase他们是一对优缺点互补的组合

hive:统计分析

:实时增删改查

以上可以看做   mysql的增强版,没有解决查询延时的问题

整合步骤:

、创建了一张hbase表插入数据

、创建一张hive表,基于这个hbase表的

第一个是hbase依赖的zookeeper的地址

第二个是hbase的数据存储在hdfs上的根目录  /hbase

第三个添加一个整合hive和hbase的jar到hive的客户端  add jar

、在创建hive表的时候,要指定hive表和hbase表的对应关系

表名

字段的定义(HBASE中的哪些key对应到hive表的哪些列)

    key   rowkey

    key1  cf1:name

    key2  cf2:age

、查询验证

可以利用hive从hbase表中进行查询分析

可以利用hive往hbase表中插入数据

hbase>scan  'mingxing'
    hive>show tables;
    desc mingxing;
    insert into table mingxing values("rk007","hadoop","xinjiang");

 

sqoop数据迁移工具

sqoop

基础理论

1、迁移的方向,迁入迁出

2、sqoop的本质:其实就是把sqoop的命令转换成mapreduce程序,被改写了inputformat和outputformat

3、架构

    RDBMS---->  import    hadoop

     RDBMS <-----   export   hadoop

开发环境搭建:

等各种组件的安装目录

关系型数据库的配置信息不需要写死在配置文件找中

常用的命令

        import

        export

        list-databases

        list-tables

        create-hive-table

各种的常用参数的含义

        sqoop import --query 'select * from myhive.student where \$CONDITIONS'

重点注意:

全量导入 则不包含以下三个参数

增量导入会包含以下参数

        --check-column   (col)按照哪个字段指定一个标识列用于判断增量导入的数据范围

        --incremental (mode) 指定增量模式包含“追加模式”和 “最后修改模式” lastmodified

        --last-value      (value)导入的最后一个字段的值也就是标识列上次导入的上界  如果标识列 是最后修改时间  则-last-value 为上次执行导入脚本的时间

增量导入append模式示例:—— 代表按需填入的值

Sqoop import -connect —— 
-username —— 
-password —— 
-table —— 
-num-mappers 10 
-hive-import 
-hive-database —— 
-hive-table —— 
-incremental append 
-check-column ID
 -last-value 3

 

 

azkaban 工作流调度引擎

结合oozie做了一个比较  

若没有这命令则需要先安装该应用