本地调试(local debug)Hive 可分为 exec (hive-exec,主要对应源码里的ql目录) 和 metastore 两部分,其中exec对外有两种接口方式 CLIDriver 和 HiveServer2的ThriftCLIService。前者对应的就是直接执行hive命令的command line,后者对应就是thrift直连或jdbc的连接方式,因此这里其实有个知识点:hiv
转载 2023-07-12 21:22:05
128阅读
目录自定义函数类别UDF(User-Defined-Function)UDAF(User-Defined Aggregation Function)UDTF(User-Defined Table-Generating Functions)步骤自定义UDF函数需求创建一个 Maven 工程 Hive导入依赖创建一个类继承并实现抽象方法打成 jar包将 jar 包添加到 hive 的 classpa
转载 2023-07-12 20:46:43
72阅读
hive自定义函数1 自定义函数1.1 为什么需要自定义函数 hive的内置函数满足不了所有的业务需求。 hive提供很多的模块可以自定义功能,比如:自定义函数、serde、输入输出格式等。 1.2 常见自定义函数有哪些UDF:用户自定义函数,user defined function。一对一的输入输出。(最常用的)。UDTF:用户自定义表生成函数。user defined table-gene
修改pom.xml<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/
原创 2022-02-15 14:40:04
411阅读
修改pom.xml<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation=...
原创 2021-06-01 16:39:22
269阅读
# 了解Hive Exec Hive是一个基于Hadoop的数据仓库工具,通过将SQL转换为MapReduce任务来处理大数据集。Hive ExecHive中的一个重要组件,它负责查询处理和执行计划的生成。在本文中,我们将介绍Hive Exec的工作原理,并通过代码示例演示其应用。 ## Hive Exec的工作原理 Hive Exec包含了Hive中的查询处理器和执行计划生成器。当用户提
原创 2024-05-23 07:40:11
153阅读
# 实现“hive.exec.stagingdir”的步骤 ## 介绍 在介绍具体的实现步骤之前,我们先来了解一下什么是“hive.exec.stagingdir”。这是Hive中的一个配置属性,用于指定Hive作业的临时目录。当Hive执行作业时,它会将中间结果和临时数据存储在这个目录中,完成作业后,临时数据会被清理掉。因此,正确设置“hive.exec.stagingdir”对于Hive的性
原创 2023-08-10 11:58:17
239阅读
启动hive报错:MissingHiveExecutionJar:/home/hadoop/local/hbase-2.1.0/lib/hive-exec-*.jar相关jar包下载链接http://www.java2s.com/Code/Jar/h/Downloadhiveexec080jar.htm启动hive保错MissingHiveMetaStoreJar检查$PATH是否正常,本次保错是
原创 2019-01-28 21:14:18
3891阅读
Hive中的数据倾斜和优化 常见的优化 1大表转化为小表,充分利用临时表 合理的利用分区表+外部表 数据存储格式,压缩的配置 SQL语句的优化 join---尽量使用map join  filter 先过滤再处理开启并行 hive.exec.parallel  ->修改为true,开启并行 hive.exec.parallel.thread.number 设置并行的个数开
转载 2023-08-13 21:19:23
214阅读
压缩配置: map/reduce 输出压缩(一般采用序列化文件存储)set hive.exec.compress.output=true;set mapred.output.compression.codec=org.apache.hadoop.io.compress.GzipCodec;set m ...
转载 2021-08-16 11:44:00
3295阅读
2评论
Tez引擎相关配置参数如下:hive-site.xml: 1. hive.exec.parallel:Hive并发执行,true表示并发,即开启作业并行。若为true一个sql语句中分解的多个job没有顺序关系时会并发执行,有顺序关系时会按顺序执行,资源充足时建议开启。默认false。 2. Hive.exec.parallel.thread.num:默认8,最多并行的作业数量,即1个sql最多允
转载 2023-08-31 23:37:47
229阅读
目录一、dockerfile概念二、Docker镜像的创建1、基于现有镜像创建2、基于本地模板创建3、基于dockerfile创建3.1 dockerfile结构(四部分)3.2 构建镜像命令三、Dockerfile操作指令1、ENTRYPOINT指令2、CMD 与entrypoint2.1 使用exec模式是无法输出环境变量2.2 shell模式(需要加解释器)2.3 小结四、镜像分层原理1、d
hive.exec.parallel参数控制在同一个sql中的不同的job是否可以同时运行,默认为false.下面是对于该参数的测试过程: 测试sql:select r1.a from (select t.a from sunwg_10 t join sunwg_10000000 s on t.a=
转载 2018-07-17 15:00:00
141阅读
2评论
hive.exec.parallel参数控制在同一个sql中的不同的job是否可以同时运行,默认为false.下面是对于该参数的测试过程:测试sql:select r1.afrom (select t.a from sunwg_10 t join sunwg_10000000 s on t.a=s.b) r1 join (select s.b from sunwg_100000 t join sunwg_10 s on t.a=s.b) r2 on (r1.a=r2.b);1,Set hive.exec.parallel=false;当参数为false的时候,三个job是顺序的执行123456
转载 2021-08-05 15:46:47
733阅读
# Hive数据压缩及hive.exec.compress.output参数详解 在处理大数据时,数据压缩是一种常用的优化措施。Hive作为一种分布式数据仓库工具,也提供了数据压缩的功能。其中,`hive.exec.compress.output`参数可以用来设置Hive输出结果的压缩方式。本文将详细介绍Hive数据压缩以及`hive.exec.compress.output`参数的使用。 #
原创 2023-07-23 15:56:38
251阅读
Hive SQL 当做Mapreduce程序去优化 以下SQL不会转为Mapreduce来执行 select仅查询本表字段 where仅对本表字段做条件过滤
转载 2023-05-29 16:44:45
271阅读
场景之前有处理过因为文件大小导致并行问题产生的数据倾斜问题,但并不是所有场景都适用,这篇文章讲讲个人认为的并行参数心得-- 参数可以控制reducer,是一种倾斜的调测手段 set hive.exec.reducers.bytes.per.reducer; -- 默认是64MB看到很多文献和博客都表示数据倾斜的时候 可以调整并行, 但是并不是适用所有场景set hive.exec.reduce
转载 2024-07-02 05:07:45
29阅读
# Hive ORC 压缩策略简介 在 Hive 中,ORC (Optimized Row Columnar) 是一种用于存储和处理大量数据的高性能列式存储格式。为了进一步优化 ORC 的存储和查询性能,Hive 提供了 `hive.exec.orc.compression.strategy` 参数,用于设置 ORC 文件的压缩策略。本文将介绍 ORC 压缩策略的概念和常见的压缩算法,并提供一些
原创 2023-08-16 13:19:23
293阅读
# Hive数据压缩及其使用方法 ## 引言 在大数据处理中,数据压缩是提高性能和节省存储空间的重要技术之一。Hive作为一个基于Hadoop的数据仓库,提供了数据压缩的功能,可以有效地减少磁盘空间的占用和提高查询性能。本文将介绍Hive中的数据压缩概念,以及如何使用`set hive.exec.compress.output`来进行数据压缩。 ## 什么是数据压缩 数据压缩是将数据从原始格式
原创 2023-08-10 17:12:04
147阅读
# Hive并行执行配置参数:hive.exec.parallel.thread.number ## 介绍 在Hive中,可以通过配置参数`hive.exec.parallel.thread.number`来控制并行执行的线程数。这个参数决定了Hive在执行查询时会使用多少个线程进行并行处理。 Hive是一个基于Hadoop的数据仓库工具,它使用HiveQL(类似于SQL)来进行数据查询和分
原创 2023-07-19 11:11:49
1535阅读
  • 1
  • 2
  • 3
  • 4
  • 5