hive和impala 语法特性区别

转载

数据狂徒 2024-11-04 20:02:43

文章标签 hive和impala 语法特性区别 sqoop 基础入门数据 sqoop 字段 文章分类 Hive 大数据

1．sqoop介绍

Apache Sqoop是在Hadoop生态体系和RDBMS体系之间传送数据的一种工具。来自于Apache软件基金会提供。

Sqoop工作机制是将导入或导出命令翻译成mapreduce程序来实现。在翻译出的mapreduce中主要是对inputformat和outputformat进行定制。

Hadoop生态系统包括：HDFS、Hive、Hbase等

RDBMS体系包括：Mysql、Oracle、DB2等

Sqoop可以理解为：“SQL 到 Hadoop 和 Hadoop 到SQL”。

hive和impala 语法特性区别_hive和impala 语法特性区别

2.sqoop入门知识总结

sqoop 安装验证

bin/sqoop list-databases \
--connect jdbc:mysql://localhost:3306/ \
--username root --password hadoop

注意事项：命令携带参数必须出现在一行中，若换行就意味着自动提交执行，可通过\表示未结束。

全量导入数据到hdfs

mysql的地址尽量不要使用localhost 请使用ip或者host
如果不指定导入到hdfs默认分隔符是 “,”
可以通过-- fields-terminated-by '\ t‘ 指定具体的分隔符
如果表的数据比较大可以并行启动多个maptask执行导入操作，如果表没有主键，请指定根据哪个字段进行切分

bin/sqoop import \
--connect jdbc:mysql://node-1:3306/userdb \
--username root \
--password hadoop \
--target-dir /sqoopresult214 \
--fields-terminated-by '\t' \
--split-by id \
--table emp --m 2

导入表数据子集（query查询）

使用 query sql 语句来进行查找不能加参数--table ;
并且必须要添加 where 条件;
并且 where 条件后面必须带一个$CONDITIONS 这个字符串;
并且这个 sql 语句必须用单引号，不能用双引号;

增量数据的导入

所谓的增量数据指的是上次至今中间新增加的数据
sqoop支持两种模式的增量导入

append追加根据数值类型字段进行追加导入大于指定的last-value
lastmodified 根据时间戳类型字段进行追加 大于等于指定的last-value

注意在lastmodified 模式下还分为两种情形：append merge-key

关于lastmodified 中的两种模式：

append 只会追加增量数据到一个新的文件中并且会产生数据的重复问题
因为默认是从指定的last-value 大于等于其值的数据开始导入
merge-key 把增量的数据合并到一个文件中处理追加增量数据之外如果之前的数据有变化修改
也可以进行修改操作底层相当于进行了一次完整的mr作业。数据不会重复。