hive和hbase整合
总结:
hive和hbase 底层都依赖HDFS
hive和hbase他们是一对优缺点互补的组合
hive:统计分析
:实时增删改查
以上可以看做 mysql的增强版,没有解决查询延时的问题
整合步骤:
、创建了一张hbase表插入数据
、创建一张hive表,基于这个hbase表的
第一个是hbase依赖的zookeeper的地址
第二个是hbase的数据存储在hdfs上的根目录 /hbase
第三个添加一个整合hive和hbase的jar到hive的客户端 add jar
、在创建hive表的时候,要指定hive表和hbase表的对应关系
表名
字段的定义(HBASE中的哪些key对应到hive表的哪些列)
key rowkey
key1 cf1:name
key2 cf2:age
、查询验证
可以利用hive从hbase表中进行查询分析
可以利用hive往hbase表中插入数据
hbase>scan 'mingxing'
hive>show tables;
desc mingxing;
insert into table mingxing values("rk007","hadoop","xinjiang");
sqoop数据迁移工具
sqoop
基础理论
1、迁移的方向,迁入迁出
2、sqoop的本质:其实就是把sqoop的命令转换成mapreduce程序,被改写了inputformat和outputformat
3、架构
RDBMS----> import hadoop
RDBMS <----- export hadoop
开发环境搭建:
等各种组件的安装目录
关系型数据库的配置信息不需要写死在配置文件找中
常用的命令
import
export
list-databases
list-tables
create-hive-table
各种的常用参数的含义
sqoop import --query 'select * from myhive.student where \$CONDITIONS'
重点注意:
全量导入 则不包含以下三个参数
增量导入会包含以下参数
--check-column (col)按照哪个字段指定一个标识列用于判断增量导入的数据范围
--incremental (mode) 指定增量模式包含“追加模式”和 “最后修改模式” lastmodified
--last-value (value)导入的最后一个字段的值也就是标识列上次导入的上界 如果标识列 是最后修改时间 则-last-value 为上次执行导入脚本的时间
增量导入append模式示例:—— 代表按需填入的值
Sqoop import -connect ——
-username ——
-password ——
-table ——
-num-mappers 10
-hive-import
-hive-database ——
-hive-table ——
-incremental append
-check-column ID
-last-value 3
azkaban 工作流调度引擎
结合oozie做了一个比较
若没有这命令则需要先安装该应用