1
定义
Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,默认情况下可以将sql语句转换为MapReduce任务进行运行
HBase是Hadoop的数据库,一个分布式、可扩展、大数据的存储
2
区别
HiveSql默认情况下会转换成MapReduce进行计算,所以比较慢,只能做离线数据分析,不能做实时查询
HBase是NoSql数据库,是物理表,不是逻辑表,虽然数据是存储在hdfs,但是读写速度非常快,适合做大数据量的即时查询
3
联系
这两种大数据框架在整个ETL过程中所处的位置及承载的作用是不一样的,一般来说,Hive清洗处理后的数据有可能会被写入HBase,供需求方实时查询,所以很多时候,这两种框架是需要同时使用的,发挥各自的价值。如下图:
4
应用场景
Hive一般是做大数据量的离线数据分析,比如日志数据分析,但是不能做实时查询,因为需要很长时间才能返回结果。
HBase适合用来对数据量很大的明细数据进行实时查询,如订单数据,用户画像数据