Hive简介Hive最初是Facebook为了满足对海量社交网络数据的管理和机器学习的需求而产生和发展的。互联网现在进入了大数据时代,大数据是现在互联网的趋势,而hadoop就是大数据时代里的核心技术,但是hadoop的mapreduce操作专业性太强,所以facebook在这些基础上开发了hive框架,毕竟世界上会sql的人比会java的人多的多,hive可以说是学习hadoop相关技术的一个突
转载 2024-04-19 13:34:21
28阅读
一、hive相关知识复习复习一下hadoop的数据仓库hive,它的元数据存储在第三方数据库中,实际数据存储在hadoop的hdfs上,所以hive不能脱离hadoop第三方数据库单独存在,我们前面已经安装好了hadoop2.7.3版本,只要安装一个第三方数据库即可满足hive安装的依赖环境,这里我选择安装的是mysql5.5.46,hive选择安装的是1.2.1版本。hive将结构化的数据文件
转载 2023-08-06 23:28:18
1154阅读
一、前言什么是hiveHive 数据仓库工具,可以把hadoop下原始结构化数据变成hive中表看成sql->Map-Reduce的映射器,提供shell,jdbc/odbc接口他为数据仓库的管理提供了多功能:数据ETL工具,数据存储管理和大型数据集查询和分析能力二、Hive 数据存储hive 的数据存储建立在hadoop 的hdfs 基础上,hive 的每个对应的分区对应 的数据库中的相
转载 2024-05-16 21:40:58
61阅读
今天在开发过程中发现老师给的一个spark实验中大量用到了hive,甚至不用spark也可以完成,于是我就对这两个东西之间的关系去查了一些资料,在这里汇总下大数据本身是个很宽泛的概念,Hadoop生态圈(或者泛生态圈)基本上都是为了处理超过单机尺度的数据处理而诞生的。你可以把它比作一个厨房所以需要的各种工具。锅碗瓢盆,各有各的用处,互相之间又有重合。你可以用汤锅直接当碗吃饭喝汤,你可以用小刀或者刨
转载 2023-07-14 19:57:53
13阅读
HIVE简介HiveHadoop生态系统中必不可少的一个工具,它提供了一种SQL方言,可以查询存储在Hadoop分布式文件系统(HDFS)中的数据或其它和hadoop集成的文件系统,如果MapR-FS,Amazon S3和像HBase(Hadoop数据库)和Cassandra这样的数据库中的项目。大多数数据仓库应用程序都是使用关系型数据库进行实现的,并使用SQL作为查询语言。Hive降低了将这些
转载 2023-09-20 22:47:36
123阅读
hadoophive、hbase的区别最近开始自学大数据,肯定免不了hadoophive、hbase这些东西。此处把自己对这3个的理解记录一下:1、hadoop:它是一个分布式计算+分布式文件系统,前者其实就是MapReduce,后者是HDFS。后者可以独立运行,前者可以选择性使用,也可以不使用2、hive:通俗的说是一个数据仓库,仓库中的数据是被hdfs管理的数据文件,它支持类似sql语句的
转载 2023-08-16 18:29:20
90阅读
Hive是什么简单来说,通过 Hive 可以使用 SQL 来查询分析 Hadoop 中的大规模数据Hive 的思路就是将结构化的数据文件映射为数据库表,然后把SQL语句转换为MapReduce任务来执行下面看一个简单的示例,了解下 Hive 是怎么用的hive> select count(*) from invites;结果信息...... Total jobs = 1 Launching
原创 2021-04-22 10:58:50
334阅读
HiveHadoop版本 Hive是一种基于Hadoop的数据仓库基础设施,用于提供数据查询和分析的高级接口。它允许用户使用类似于SQL的查询语言(HiveQL)来处理存储在Hadoop集群中的大规模数据集。在HiveHadoop的集成中,版本的兼容性是非常重要的。 Hadoop是一个开源的分布式计算平台,它提供了可靠性、可扩展性和容错性,适用于处理大规模数据集。Hive是在Hadoop
原创 2023-12-07 07:04:03
129阅读
# Hive Hadoop 版本 ## 背景介绍 Hive 是一个构建在 Apache Hadoop 之上的数据仓库工具,它提供了类似于 SQL 的查询语言 HiveQL 来进行数据分析,同时能够将查询转换为 MapReduce 任务在 Hadoop 集群上执行。Hive 使用元数据来描述数据结构和数据存储位置,使得用户可以轻松地查询和分析存储在 Hadoop 中的大规模数据。 Hado
原创 2024-03-20 04:00:22
265阅读
Zookeeper是一个集中式服务,主要负责分布式服务调度,它用来完成配置管理、名字服务、提供分布式锁以及集群管理等工作。配置管理应用程序中经常有一些配置,比如数据库连接等。一般我们都是使用配置文件的方式,在代码中引入这些配置文件。这种方式是适合只有一台服务器的时候。当我们有很多服务器时,就需要寻找一种集中管理配置的方法,而不是在每个服务器上存放配置文件。我们在这个集中的地方修改了配置,所有需要配
什么是ETL:即extract:提取transform:转换load:加载ETL其实是数据清洗后的数据 什么是数据中台:从抽取数据开始,到最终用户看到,这一系列过程都是数据中台;指的是一套数据应用和工具,包括分布式ETL、数据资产管理、数据标签管理、数据沙箱、自助分析平台、元数据管理、数据质量管理等等,底层则已现有的数仓、大数据平台等为数据源,为企业提供数据资产管理的能力,并持续挖掘数据
转载 2023-07-11 22:42:02
202阅读
云原生大数据组件研究(Hive+Hadoop)前言网上的找的文档大多残缺不靠谱,所以我整理了一份安装最新版本的hive4..0.0+hadoop3.3.4的学习环境,可以提供大家安装一个完整的hive+hadoop的环境供学习。由于在公司担任大数据的培训工作后续还会更新一些基础的文章,希望能帮助到大家。 一、安装Hadoop3.3.4 前置:集群规划机器信息Hostnamek8s-master
第十二章 Hive一、示例①声明一个表,三列:year,temperature,quality create table records (year string, temperature int,quality int) row format delimited #HiveQL所特有,声明每一行是由制表符分隔的文本,按此格式读取数据 fields terminated by ‘\t’ ②
转载 2024-06-02 09:52:20
38阅读
文章目录1、Hadoop的基本介绍2、Hadoop生态圈概览3、Hadoop的核心组成部分3.1 HDFS3.1.1 HDFS的基本介绍3.1.2 HDFS的设计特点3.1.3 HDFS的架构3.1.4 HDFS的关键元素3.2 MapReduce3.2.1 MapReduce的基本介绍3.2.2 MapReduce的执行流程3.3 Yarn 1、Hadoop的基本介绍Hadoop是Apache
Hive1.hive简介: hive是基于hadoop的一个数据仓库工具,它可以将结构化数据文件映射为一张数据库表,并提供hive SQL查询功能;hive的本质是将hive SQL转化为MapReduce程序;使用hive来完成离线数据分析,比直接使用MapReduce开发效率高 2.hivehadoop的关系: hive利用HDFS存储结构化数据(利用mysql存储元数据),利用MapR
转载 2023-09-04 12:13:37
102阅读
目录1.安装部署Hive的基础前提:1.1、hadoop 集群配置2、Hive安装3.安装配置MySQL3.1、启动MySQL服务:3.2、mysql -u root -p3.3、然后创建myhive 用户:4.配置Hive4.1、配置hive-env.sh文件4.2、进入 hive安装目录下的配置目录,然后修改配置文件:4.3、将mysql的java connector复制到依赖库中,其中,第3
转载 2023-07-25 00:07:04
1168阅读
       上节课我们一起学习了用Java来对HBase的表进行增、删、改、查操作。这节课我们开始步入Hive的学习阶段       我们先来看一下Hive的简介,如下图所示,Hive是一个数据仓库,它部署在Hadoop集群上,它的数据是存储在HDFS上的,Hive所建的表在H
转载 2024-07-30 15:40:55
54阅读
一、什么是动态分区静态分区动态分区的主要区别: ①:静态分区是手动指定,而动态分区是在插入数据时有查询语句决定。 ②: 静态分区一次只能导入一个分区的分区的数据,动态分区可以在执行SQL时将所有分区的数据全部导入二、 为什么使用动态分区从业务层面: ①:当我们在业务中频繁的对某一个字段分区聚合时,就会将该字段作为分区字段来设置分区, ②: 在分布式计算框架中减少数
Hive基础知识回顾1、HiveHadoop的关系         Hive是基于Hadoop的一个数据仓库工具(所以Hive的logo跟大象和黄蜂有关),可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能。        
转载 2023-08-30 11:15:42
95阅读
我们了解了数据仓库的基础知识,大概对数据仓库有了一个基本认识。接下来,我们来更进一步的了解数据仓库。就像我们学习数据库时学习mysql一样,我们学习学习数据仓库的HIVE.HIVE了解hive之前,我们其实需要学习下hadoop。不然你不知道hive是干啥的。HadoopHadoop实现了一个分布式文件系统,其中一个组件是HDFS(hadoop Distributed File System).
转载 2023-07-13 16:56:36
163阅读
  • 1
  • 2
  • 3
  • 4
  • 5