1

定义

       Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,默认情况下可以将sql语句转换为MapReduce任务进行运行

       HBase是Hadoop的数据库,一个分布式、可扩展、大数据的存储


2


区别

      HiveSql默认情况下会转换成MapReduce进行计算,所以比较慢,只能做离线数据分析,不能做实时查询

      HBase是NoSql数据库,是物理表,不是逻辑表,虽然数据是存储在hdfs,但是读写速度非常快,适合做大数据量的即时查询


3


联系

       这两种大数据框架在整个ETL过程中所处的位置及承载的作用是不一样的,一般来说,Hive清洗处理后的数据有可能会被写入HBase,供需求方实时查询,所以很多时候,这两种框架是需要同时使用的,发挥各自的价值。如下图:

hudi 与hive的区别 简述hive与hbase的区别_hudi 与hive的区别


4


应用场景

Hive一般是做大数据量的离线数据分析,比如日志数据分析,但是不能做实时查询,因为需要很长时间才能返回结果。

HBase适合用来对数据量很大的明细数据进行实时查询,如订单数据,用户画像数据

hudi 与hive的区别 简述hive与hbase的区别_数据_02