Hive究竟是什么?大白话讲述

原创

wx6325d39bd24bd 2022-12-09 10:01:25 ©著作权

文章标签 hive 数据挖掘 hadoop Hive 数据 文章分类 运维

©著作权归作者所有：来自51CTO博客作者wx6325d39bd24bd的原创作品，请联系作者获取转载授权，否则将追究法律责任

嗨喽! 大家好，我是“流水不争先，争得滔滔不绝”的翀，欢迎大家来交流学习，一起入坑数据分析，希望我们一起好好学习，天天向上，目前在社会毒打中~~

曾几何时我脑海中一直以为Hive是个数据库,毕竟可以写sql查询，后面才知道我错了，而且是大错特错，Hive是一个构建于Hadoop顶层的数据仓库工具，允许用户输入SQL语句进行查询
那后面我就想不明白了，数据仓库工具，数据仓库，工具工具，那它查询的数据在哪里，HDFS？毕竟我了解到的Hadoop好像只有这个东西可以存东西，然后我谷歌，百度一顿乱搜，也没找到靠谱的答案，终于终于今天我找到答案了-----2021年12月30日
Hive在某种程度上可以看作用户编程接口，其本身并不存粗数据和处理数据，而是依赖HDFS来存储数据，依赖MapReduce来处理数据。果然，做的大数据作业就感觉好像在create数据库，然后读书上传到HDFS上的数据，然后进行处理。
那么下面说一下Hive的不足之处：，来源《Spark编程基础》第一章内容：
Hive作为现有比较流行的数据仓库分析工具之一，得到了广泛的应用，但是由于Hive采用MapReduce来完成批量数据处理，因此，实时性不好，查询延迟较高。Impala 作为新一代开源大数据分析引擎，支持实时计算，它提供了与Hive类似的功能，通过SQL语句能查询存储在Hadoop的HDFS和HBase上的PB级别海量数据，并在性能上比Hive高出3～30倍。