在大数据当中,要实现大数据处理,首先需要确保海量数据存储稳定且易于操作,这就对数据库提出了更高的要求。在Hadoop生态系统当中,基于数据存储和运算的问题,Hive是其中重要的组件。今天我们就主要来聊聊大数据Hadoop Hive是什么?

Hive按照官方定义来说,是Hadoop生态体系当中的数据仓库工具,通过Hive,可以将结构化的数据文件映射成为一张数据库表,将SQL语句转化为MapReduce任务进行运行,而MapReduce,通过分布式分析计算,快速完成数据处理的过程。
 

hive是hadoop生态 hadoop的hive_大数据


 

Hive在实际运行过程中,提供一系列的工具,解决数据提取、转行、加载等问题,对于存储在Hadoop中的大规模数据,实现更快的存储、查询和分析操作。

Hive的架构,可以分为用户接口、Thrift服务器、元数据库、解释器(编译器、优化器、执行器)等,简单来说,Hive当中的数据基于HDFS进行存储,数据查询行为被转化为MapReduce任务,在Hadoop中执行。

用户接口:Shell/CLI,CLI,Shell终端命令行,采用交互形式使用Hive命令行与Hive进行交互。Cli启动的时候,会同时启动一个Hive副本。JDBC/ODBC客户端是Hive的JAVA实现,与传统数据库JDBC类似。

Thrift服务器:Thrift是Facebook开发的一个软件框架,可以用来进行可扩展且跨语言的服务的开发,Hiv集成了该服务,能让不同的编程语言调用Hive的接口。

元数据库:存储在Hive中的数据的描述信息。Hive将元数据存储在数据库中,如mysql、derby。Hive中的元数据包括表的名字,表的列和分区及其属性,表的属性,表的数据所在目录等。

编译器:主要将sql语句编译成一个MR的任务。

优化器:主要是对我们的sql语句进行优化。

执行器:提交mr任务,进行执行。

关于大数据Hadoop Hive,Hive是什么,hive怎么运行等等的问题,相信看完以上的内容,大家也都基本了解了。在大数据Hadoop体系下,Hive是非常重要的组件,对于海量数据的存在功不可没。