hive与mysql hive与mysql效率对比

转载

mob64ca14089531 2023-09-01 17:01:25

文章标签 hive与mysql hive与mysql的区别知乎关系数据库 Hive hive 文章分类 Hive 大数据

对每一个在数据挖掘行业工作的人，在工作中都会时刻面对海量的数据，此时 EXCEL 处理数据的时候就会有一定的困难。此时就需要工程师使用 HIVE 语言去操作数据库。本文从一个初学者的角度来简要介绍一下 HIVE 和基本的使用场景，作为初学者，在整理的过程中难免会出现错误，希望大家多多指教。

HIVE 介绍

(1)hive 是基于 Hadoop 的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供完整的 sql 查询功能，可以将 sql 语句转换为 MapReduce 任务进行运行。其优点是学习成本低，可以通过类 SQL 语句快速实现简单的 MapReduce 统计，不必开发专门的 MapReduce 应用，十分适合数据仓库的统计分析。

(2)Hive 是建立在 Hadoop 上的数据仓库基础构架。它提供了一系列的工具，可以用来进行数据提取转化加载(ETL)，这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机制。Hive 定义了简单的类 SQL 查询语言，称为 HQL，它允许熟悉 SQL 的用户查询数据。同时，这个语言也允许熟悉 MapReduce 开发者的开发自定义的 mapper 和 reducer 来处理内建的 mapper 和 reducer 无法完成的复杂的分析工作。

使用 hive 的命令行接口，感觉很像操作关系数据库，但是 hive 和关系数据库还是有很大的不同，下面我就比较下 hive 与关系数据库的区别，具体如下：Hive 和关系数据库存储文件的系统不同，Hive 使用的是 hadoop 的 HDFS(hadoop 的分布式文件系统)，关系数据库则是服务器本地的文件系统；

hive 使用的计算模型是 mapreduce，而关系数据库则是自己设计的计算模型；

关系数据库都是为实时查询的业务进行设计的，而 Hive 则是为海量数据做数据挖掘设计的，实时性很差；实时性的区别导致 Hive 的应用场景和关系数据库有很大的不同；

Hive 很容易扩展自己的存储能力和计算能力，这个是继承 hadoop 的，而关系数据库在这个方面要比数据库差很多。

以上都是从宏观的角度比较 Hive 和关系数据库的区别，下面介绍一下在实际工作中遇到的一些常用语句和方法。

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。