目录第十部分 Hive调优策略第 1 节 架构优化执行引擎优化器分区表分桶表文件格式数据压缩第 2 节 参数优化本地模式严格模式JVM重用并行执行推测执行合并小文件Fetch模式第 3 节 SQL优化列裁剪和分区裁剪sort by 代替 order bygroup by 代替 count(distinct)group by 配置调整join 基础优化第 4 节 优化小结第十一部分 Hive案例第
转载 2024-07-30 15:33:26
57阅读
# 如何在Hive显示当前用户 ## 介绍 在Hive显示当前用户是非常简单的。本文将指导你如何通过一系列的步骤来实现这个目标。首先,我会简要介绍Hive的概念和用途,然后详细解释每个步骤,包括需要使用的代码和代码的注释。 ## Hive简介 Apache Hive是建立在Hadoop之上的一种数据仓库基础架构,用于提供数据汇总、查询和分析的能力。它使用类似于SQL的HiveQL查询语言,
原创 2023-08-18 11:38:57
242阅读
# 如何在 Hive 中查看当前使用的引擎 在大数据技术栈中,Apache Hive 是一个重要的工具,它提供了数据仓库软件设施,用于提供数据的查询和分析。而了解当前使用的引擎对开发人员来说十分重要,这是确保查询性能和资源利用的第一步。本文将教会你如何在 Hive 中查看当前使用的引擎,步骤清晰,并包含必要的代码示例及解释。 ## 流程概述 在Hive中查看当前使用的引擎,步骤如下: |
原创 2024-08-15 08:36:35
605阅读
# Hive当前引擎设置为 MapReduce Apache Hive 是一个数据仓库工具,可以用于处理大规模的分布式数据集。作为一个面向数据分析的项目,Hive 提供了一个类似 SQL 的查询语言,称为 HiveQL。最初,Hive 的默认执行引擎是 MapReduce,但随着技术的发展,Hive 现在也支持其他计算引擎,如 Tez 和 Spark。本文将重点讨论如何将 Hive 的执行引
原创 2024-11-01 09:04:16
194阅读
文章目录创造数据登录日志去重一、思路一1.1、分组排序1.2、日期减去计数值得到结果, 用户连续登陆情况下,每次相减的结果都相同1.3、根据 user_id 和 dis 分组,得到用户的 开始、结束时间、连续登录天数1.4、连续登录超过两天用户二、思路二: 使用 LAG(向后)或者 LEAD(向前) 连续活跃登陆的用户指至少连续2天都活跃登录的用户解决类似场景的问题创造数据CREATE TABL
hive CLI启动时,在hive > 提示符出现之前会优先执行文件.hiverc,Hive会自动在${HIVE_HOME}/bin目录下寻找名为.hiverc文件,由此可以在这个文件中设置配置一些常用的参数。由于它是隐藏文件,我们可以用Linux的ls -a命令查看。编写 .hiverc,参考链接, 有说放在 $HOME/.hiverc 或者 $HIVE_HOME/bin/.h...
原创 2021-05-28 22:44:32
1019阅读
hive CLI启动时,在hive > 提示符出现之前会优先执行文件.hiverc,Hive会自动在${HIVE_HOME}/bin目录下寻找
原创 2022-03-18 14:35:38
702阅读
hive1.1 hive简介1.1.1 什么是hivehive是一个构建在Hadoop上的数据仓库工具(框架),可以将结构化的数据文件映射成一张数据表,并可以使用类似sql的方式来对这样的数据文件进行读、写以及管理(包括元数据)。Hive SQL 简称HQL。hive的执行引擎可以是MR、Spark、tez。如果执行引擎是MapReduce的话,hive会将Hql翻译成MR进行数据的计算。 用户
转载 2023-07-12 10:08:51
191阅读
本文涵盖了6个开源领导者:Hive、Impala、Spark SQL、Drill、HAWQ 以及Presto,还加上Calcite、Kylin、Phoenix、Tajo 和Trafodion。以及2个商业化选择Oracle Big Data SQL 和IBM Big SQL,IBM 尚未将后者更名为“Watson SQL”。(有读者问:Druid 呢?我的回答是:检查后,我同意Druid 属于这一
转载 2024-03-09 18:08:16
40阅读
最近在做公司的数仓,遇到一个问题,希望大家可以不吝赐教:问题:hive 中count(*) 结果不准确?场景:hive 中建表,stored as parquet tblproperties ("parquet.compression"="lzo");从ods层导入数据,先进行全表检索。select * from dwd_fact_order_info where dt = "2020-10-01
转载 2023-10-05 19:33:59
274阅读
前言有赞数据平台从2017年上半年开始,逐步使用 SparkSQL 替代 Hive 执行离线任务,目前 SparkSQL 每天的运行作业数量5000个,占离线作业数目的55%,消耗的 cpu 资源占集群总资源的50%左右。本文介绍由 SparkSQL 替换 Hive 过程中碰到的问题以及处理经验和优化建议,包括以下方面的内容:有赞数据平台的整体架构。SparkSQL 在有赞的技术演进。从 Hive
转载 2023-09-08 12:23:10
169阅读
安装tez的过程可谓是坑有点多,编译还是相对简单的。现在复盘一下,以下是我的版本号框架版本号Hadoop3.1.3Hive3.1.2Tez0.10.1能看到这篇文章的,说明各位也能知道tez是干啥的,这里就不介绍了,直接开始安装我们可以在官网看到,Hadoop3.X版本要使用Tez引擎是需要自己编译的(对于0.8.3和更高版本的Tez,Tez需要Apache Hadoop的版本为2.6.0或更高
转载 2024-08-05 08:51:35
101阅读
一,整合原理1,HiveOnSparkHive是一个Sql解析引擎,其不具备计算能力,Hive将Sql解析为物理执行计划,将物理执行计划转换为计算任务,交由计算引擎执行,默认的引擎是MapReduce,但MapReduce执行速度慢,随着Spark的崛起,Hive支持Spark作为计算引擎,这就是HiveOnSpark2,SparkOnHive比较容易混淆,二者差距还是很大的,SparkOnHiv
转载 2023-08-18 22:37:13
1579阅读
1、常见方案比较首先,Hive/SparkSQL 在数据仓库的领域应用是比较广泛的,但是因为查询时延很难能够满足毫秒到秒级的要求,同时因为是离线计算,数据时效性也比较差。 其次,ES (Elasticsearch+Logstash+Kibana)是一个功能很强大的系统,在中等数据规模场景下能较好地满足需求,但是在万亿和更大的数据规模场景下,数据的写入性能和查询性能都遇到了很大的瓶颈。 最后,Kyl
转载 2023-08-19 18:28:14
221阅读
由于 Hive 采用了类似 SQL 的查询语言 HQL(Hive Query Language),因此很容易 将 Hive 理解为数据库。其实从结构上来看,Hive 和数据库除了拥有类似的查询语言,再无 类似之处。本文将从多个方面来阐述 Hive 和数据库的差异。数据库可以用在 Online 的应用 中,但是 Hive 是为数据仓库而设计的,清楚这一点,有助于从应用角度理解 Hive 的特性。1.
Hive作为SQL on Hadoop最稳定、应用最广泛的查询引擎被大家所熟知。但是由于基于MapReduce,查询执行速度太慢而逐步引入其他的近实时查询引擎如Presto等。值得关注的是Hive目前支持MapReduce、Tez和Spark三种执行引擎,同时Hive3也会支持联邦数据查询的功能。所以Hive还是有很大进步的空间的。
转载 2023-07-12 10:37:35
361阅读
数据分析引擎Hive(2.3,在2.2.0版本以后是没有hwi,没有网页访问页面)1、为什么需要数据分析引擎?什么是数据分析引擎?(*) 不懂Java和Scala语言,如何进行大数据的分析?(*) 懂SQL语言, select **** from ****2、常见数据分析引擎Hive、Pig、Imapla3、Hive是基于Hadoop之上的一个数据仓库Hive HDFS表 ---------&
转载 2023-07-12 21:39:12
117阅读
二、Hive and SparkSQL  其中SparkSQL作为Spark生态的一员继续发展,而不再受限于Hive,只是兼容Hive;而Hive on Spark是一个Hive的发展计划,该计划将Spark作为Hive的底层引擎之一,也就是说,Hive将不再受限于一个引擎,可以采用Map-Reduce、Tez、Spark等引擎。 SparkSQL的两个组件SQLContext
转载 2023-09-14 13:41:33
315阅读
Hive从1.1之后,支持使用Spark作为执行引擎,配置使用Spark On Yarn作为Hive的执行引擎,首先需要注意以下两个问题:Hive的版本和Spark的版本要匹配;具体来说,你使用的Hive版本编译时候用的哪个版本的Spark,那么就需要使用相同版本的Spark,可以在Hive的pom.xml中查看spark.version来确定;Hive root pom.xml’s &
转载 2023-07-24 15:34:14
263阅读
目录 这里写目录标题一、卸载linuxz自带的mysql二、安装mysql三、安装hive四、Hive元数据配置到MySql五、启动Hive六、hive交互命令七、hiveHive常见属性配置八、Hive常见数据类型 一、卸载linuxz自带的mysql 1.卸载linux 自带mysql i. 查询系统自带的mysql a. Centos6 -> mysql Centos6 ->ma
转载 2023-08-23 21:47:40
137阅读
  • 1
  • 2
  • 3
  • 4
  • 5