前面一路从hadoop、spark、zookeeper、kafka等集群搭建而来,大数据生态环境已经初步形成,下面要继续来搭建大数据生态中很重要的Hive集群。 一、Hive简介 Hive 是基于 Hadoop 的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供完整的 SQL 查询功能,将类 SQL 语句转换为 MapReduce 任务执行。 二、环境准备 hadoop-
转载
2023-07-14 12:57:41
105阅读
首先检查系统安装的mysql版本,使用命令 rpm -qa | grep mysql若要安装自己的版本,则先执行删除操作 rpm -e xxxxx.rpm --nodeps然后安装自己的版本, &n
转载
2023-07-12 09:31:14
64阅读
Spark SQLSpark SQL精华及与Hive的集成一、Spark SQL简介1、SQL on Hadoop2、Spark SQL前身3、Spark SQL架构4、Spark SQL运行原理5、Catalyst优化器二、Spark Dataset API1、创建2、Dataset3、演练三、Spark DataFrame API1、介绍2、对比3、创建4、常用操作5、RDD和DataFra
转载
2024-09-06 10:19:15
36阅读
大数据技术之Hive(Hive搭建)1.1 什么是HiveHive:由Facebook开源用于解决海量结构化日志的数据统计。 Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类SQL查询功能。 本质是:将HQL转化成MapReduce程序 1)Hive处理的数据存储在HDFS 2)Hive分析数据底层的实现是MapReduce 3)执行程序运行在Yarn上1
转载
2023-10-07 21:47:35
64阅读
Hive基本概念是一个基于Hadoop的数据仓库工具,可以将结构化数据映射成一张数据表, 并提供类SQL的查询功能安装Hive1、derby版hive直接使用:1、上传Hive包到/export/softwares解压hivecd /export/softwares
tar -zxvf hive-1.1.0-cdh5.14.0.tar.gz -C /export/servers/1. 直接启动 b
转载
2023-09-08 14:40:58
117阅读
前期准备在安装 Hive 时,需要先搭建好 hadoop, 并保证 HDFS, YARN已经启动成功。
hadoop-daemon.sh start namenode
hadoop-daemon.sh start datanode
hadoop-daemon.sh start secondarynamenode
yarn-daemon.sh start resourcemanager
yarn-
转载
2023-11-02 19:15:02
54阅读
1、hive环境搭建1.1、hive引擎简介Hive引擎包括:默认MR、tez、sparkHive on Spark:Hive既作为存储元数据又负责SQL的解析优化,语法是HQL语法,执行引擎变成了Spark,Spark负责采用RDD执行。Spark on Hive : Hive只作为存储元数据,Spark负责SQL解析优化,语法是Spark SQL语法,Spark负责采用RDD执行。1.2、hi
转载
2024-04-10 13:14:52
42阅读
目录 harbor的简介Harbor特性harbor的安装访问测试镜像的上传和拉取harbor的简介Harbor是一个用于存储和分发Docker镜像的企业级Registry服务器,通过添加一些企业必需的功能特性,例如安全、标识和管理等,扩展了开源Docker Distribution。作为一个企业级私有Registry服务器,Harbor提供了更好的性能和安全。提升用户使用Registr
HIVE再次尝试 用 Mysql 环境搭建 以及 mysql中文乱码完美解决http://www.bieryun.com/1493.html说道hive用默认的Derby作为metadata的存放处,但是这个缺点比较多,只能同时让一个用户登陆,重启机器后建的表也没了,不能用于真正的集群,下面讲解用mysql作为数据的搭建方法。1. hive安装第一步:安装mysql因为我用的是ubuntu系统,安
转载
2023-10-28 21:09:17
73阅读
1.定义 Apache Hive数据仓库软件便于读,写和管理大型数据集驻留在分布式存储使用SQL。 结构可以投影到存储中的数据上。 客户端的连接方式可采用:command line 和 JDBC Driver。注意:Hive实质就是客户端,不存在主从结构,搭建过程没有集群概念。2.搭建Hive 前提: a.Hadoop集群搭建完成!
转载
2023-07-03 21:22:08
71阅读
目录导读Hadoop、Hive 是什么运行环境hive-env.shhive-site.xmlcore-site.xmlhdfs-site.xmlmapred-site.xmlyarn-site.xmlhadoop-env.cmdJava 环境Mysql下载 Hadoop、Hive 和 驱动安装 Hadoop启动 Hadoop安装 Hive配置 Hive运行 Hive连接到 Hive导读最近一个数
转载
2024-07-22 10:43:28
37阅读
大数据技术之 Hive第 1 章 Hive 基本概念1.1 什么是 Hive1) hive 简介Hive:由 Facebook 开源用于解决海量结构化日志的数据统计工具。Hive 是基于 Hadoop 的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并 提供类 SQL 查询功能。2) Hive 本质:将 HQL 转化成 MapReduce 程序SQL—Mapreduce(1)Hive 处理
转载
2023-07-21 16:24:13
120阅读
# 为什么搭建Hive需要MySQL?
在大数据处理中,Hive是一个重要的工具,它提供了一个类SQL的查询语言,可以在Hadoop上处理结构化数据。然而,许多小白在学习Hive时会遇到一个基本问题:为什么在搭建Hive时需要使用MySQL?在这篇文章中,我们将详细解说这一过程,并提供必要的步骤和代码示例,以帮助你理解这一关联。
## 整体流程
搭建Hive并使用MySQL的流程可以简单概括
原创
2024-10-13 05:23:37
50阅读
Hive hive是简历再hadoop上的数据库仓库基础架构,它提供了一系列的工具,可以用来进行数据提取转化加载(ETL),这是一种可以存储,查询和分析存储再hadoop种的大规模数据机制,hive定义了简单的类sql查询语音,称为QL,它允许熟悉sql的用户查询数据,同时, 这个语言也允许熟悉ma
原创
2021-07-27 16:45:21
148阅读
前提条件:
下载:https://mirrors.cnnic.cn/apache/hive/
安装了hadoop集群,
1.解压缩hive的软件包,使用命令:
tar -zxvf hive-3.1.0-bin.tar.gz
**2.进入hive的配置目录. 编辑/usr/local/data/hive-3.1.0/conf/hive-site.xml **
添加配置文件:
<?xml
原创
2024-04-22 09:48:53
21阅读
目录一、删除原版本5.7MySQL二、安装5.8版本MySQL1、准备以下mysql包2、新建mysql文件夹 3、上传安装包4、rpm下载5、启动mysql服务 6、修改密码 三、配置Hive元数据保存到MySQL1、删除原版本mysql驱动2、上传新版本驱动 3、修改$HIVE_HOME/conf/hive-site.xml4、登录mqsql,创建元数据
转载
2024-02-20 13:54:48
133阅读
一、MySQL的安装元数据信息。derby数据库来存储。即hive工作时,除了要依赖Hadoop,还要依赖关系型数据库。 注意:虽然我们能通过HDFS查看到hive有哪些数据库,有哪些表,以及表里的数据,但是,这不是元数据信息。HDFS最主要的是存储hive的数据信息。之前遇到的问题:当退出后,切换到不同的目录来进入hive,发现库和表没有了,是因为,第一次从bin目录进入hive,会在bin目
转载
2023-07-12 09:30:21
196阅读
1、搭建环境部署节点操作系统为CentOS,防火墙和SElinux禁用,创建了一个shiyanlou用户并在系统根目录下创建/app目录,用于存放Hadoop等组件运行包。因为该目录用于安装hadoop等组件程序,用户对shiyanlou必须赋予rwx权限(一般做法是root用户在根目录下创建/app目录,并修改该目录拥有者为shiyanlou(chown –R shiyanlou:shiyanl
转载
2024-07-23 09:40:04
204阅读
# 搭建Hive的高可用环境基于MySQL
在现代数据处理和大数据环境中,Hive作为一种数据仓库工具,不仅仅用于数据查询,还广泛用于数据分析。本文将引导您如何搭建Hive的高可用环境,使用MySQL作为元数据存储,以确保数据的可靠性和冗余性。
## 整体流程
在开始之前,让我们先总结一下搭建Hive高可用环境的关键步骤,您可以参照下表:
| 步骤 | 描述
原创
2024-09-07 03:39:27
98阅读
一、Hive到底是什么 数据依然是存储在HDFS中,由HDFS负责管理数据冗余与一致性。Hive只是在此基础上构建了一个表,在进行数据查询时,Hive引擎将SQL语句转化为下层的mr作业,然后在mr的基础上进行计算,计算完成,最后返回结果。 &n
转载
2023-09-13 10:11:11
247阅读