hive试题 hive面试题总结2020

转载

幸福的地图 2023-07-26 14:31:23

文章标签 hive试题 hive 面试 big data Hive 文章分类 Hive 大数据

文章目录

Hive介绍
Hive架构（重点）
Hive内外部表（重点）
Hive建表语句
Hive数据倾斜以及解决方案（重点）
Hive的自定义函数
Hive的sort by、distribute by、cluser by、order by区别
Hive分区和分桶的区别
HQL转化为MR的过程
Hive的存储引擎和计算引擎

1、计算引擎
2、存储引擎

Join的操作原理

1、Common Join
2、Map Join
3、SMB Join

Hive上传数据到HDFS，小文件问题
Hive保存元数据的方式
Hive开窗函数

Hive介绍

提供了一种SQL(结构化查询)语言，可将结构化的数据文件映射为一张表，查询存储在HDFS上的数据或其他在HDFS上的文件系统，如HBase，MapR-FS、Cassandra

优点：
	1、操作接口采用类SQL语法，能快速开发
	2、避免去学MapReduce，减少学习成本
	3、支持用户自定义函数
	4、处理大数据便捷
缺点：
	1、执行延迟比较高，自动生成的MapReduce作业比较慢
	2、表达能力有限，体现在迭代式算法无法表达、MapReduce数据处理流程限制，无法实现效率更高的算法
	3、不支持记录级别的更新、插入、删除操作。

Hive架构（重点）

hive试题 hive面试题总结2020_big data

用户接口（Client）：CLI、JDBC/ODBC、WEBUI

元数据（Meta store）：表名、表所属数据库、表的拥有者、列/分区字段、表的类型（内、外部表）、表的数据所在目录等

驱动器Driver

1、解析器：将SQL字符串转换成抽象语法树AST，一般都用第三方工具库完成，比如antlr
		对AST进行语法分析，例如表、字段是否存在，SQL语义是否有误
2、编译器：将AST编译成逻辑执行计划
3、优化器：将逻辑执行计划进行优化
4、执行器：将逻辑执行计划转化成物理计划，例如MR/Spark

Hive内外部表（重点）

内部表（managed table）、外部表（external table）：是否被external修饰

内部表数据存储的位置是hive.metastore.warehouse.dir（默认是/user/hive/warehouse）
外部表数据存储位置是自己规定（如果没有LOCATION，在）在HDFS上的/user/hive/warehouse下以外部表的表名创建一个文件夹

内部表的数据由Hive自身管理
外部表的数据由HDFS管理

创建表：
	创建内部表时，数据将移动到数据仓库指向的路径
	创建外部表时，仅记录数据所在路径
删除表：
	删除内部表时，元数据和数据一起被删除
	删除外部表时，只删除元数据
	
外部表的优点：
	1、外部表不会加载到Hive的默认仓库，减少了数据的传输，同时还能和其他外部表共享数据
	2、使用外部表，Hive不会修改源数据，不用担心数据损坏或丢失

Hive建表语句

CREATE [EXTERNAL] TABLE [IF NOT EXISTS] table_name
[(col_name data_type [COMMENT col_comment], ...)]
[COMMENT table_comment]
[PARTITIONED BY (col_name data_type [COMMENT col_comment], ...)]
[CLUSTERED BY (col_name, col_name, ...)
[SORTED BY (col_name [ASC|DESC], ...)] INTO num_buckets BUCKETS]
[ROW FORMAT row_format]
[STORED AS file_format]
[LOCATION hdfs_path]
[TBLPROPERTIES (property_name=property_value, ...)]
[AS select_statement]

(1)CREATE TABLE	创建一个指定名字的表。如果相同名字的表已经存在，则抛出异常；用户可以用 IF NOT EXISTS 选项来忽略这个异常。
(2)EXTERNAL	关键字可以让用户创建一个外部表，在建表的同时可以指定一个指向实际数据的路径（LOCATION），在删除表的时候，内部表的元数据和数据会被一起删除，而外部表只删除元数据，不删除数据。
(3)COMMENT	为表和列添加注释
(4)PARTITIONED BY	创建分区表
(5)CLUSTERED BY 	创建分桶表
(6)SORTED BY	不常用，对桶中的一个或多个列另外排序
(7)ROW FORMAT DELIMITED [FIELDS TERMINATED BY char][COLLECTION ITEMS TERMINATED BY char][MAP KEYS TERMINATED BY char][LINES TERMINATED BY char]SERDE serde_name [WITH SERDEPROPERTIES (property_name=property_value,property_name=property_value, ...)]	用户在建表的时候可以自定义SerDe或者使用自带的SerDe，如果没有指定ROW FORMAT或者ROW FORMAT DELIMITED，将会使用自带的SerDe。在建表的时候，用户还需要为表指定列，用户在指定表的列的同时也会指定自定义的SerDe,Hive通过SerDe确定表的具体的列的数据。SerDe是Serialize/Deserilize的简称，hive使用Serde进行行对象的序列与反序列化。
(8)STORED AS	指定存储文件类型，常用的存储文件类型，常用的存储文件类型：SEQUENCEFILE(二进制序列文件)、TEXTFILE(文本)、RCFILE(列式存储格式文件)如果文件数据是纯文本，可以使用STORED AS TEXTFILE，如果数据需要压缩，使用STORED AS SEQUENCEFILE
(9)LOCATION 	指定表在HDFS上的存储位置
(10)AS	后跟查询语句，根据查询结果创建表
(11)LIKE	允许用户复制现有的表结构，但是不复制数据

Hive数据倾斜以及解决方案（重点）

1、什么是数据倾斜？

数据倾斜主要表现在，map/reduce程序执行时，reduce节点大部分执行完毕，但是有一个或者几个reduce节点运行很慢，导致整个程序的处理时间很长。

这是因为某一个key的条数比其他key多很多，这条key节点所处理的数据量比其他节点大很多，从而导致某几个节点迟迟运行不完。

2、数据倾斜的原因

关键词	情形	后果
Join	其中一个表较小，但是key集中	分发到某一个或几个Reduce上的数据远高于平均值
大表与大表，但是分桶的判断字段0值或空值过多	这些空值都由一个reduce处理，非常慢
group by	group by维度过小，某值的数量过多	处理某值的reduce非常耗时
Count Distinct	某特殊值过多	处理此特殊值的reduce非常耗时

原因：

key分布不均匀
业务数据本身的特性
建表时考虑不周
某些SQL语句本身就有数据倾斜

现象：

任务进度长时间维持在99%（或100%），查看任务监控页面，发现只有少量（1个或几个）reduce子任务未完成。因为其处理的数据量和其他reduce差异过大。
单一reduce的记录数与平均记录数差异过大，通常可能达到3倍甚至更多。最长时长远大于平均时长。

3、数据倾斜的解决方案

1）参数调节

hive.map.aggr = true

Map端部分聚合，相当于Combiner

hive.groupby.skewindata = true

有数据倾斜的时候进行负载均衡，当选型设定为true，生成的查询计划会有两个MR Job。

第一个MR Job中，Map的输出结果会随机分布到Reduce中，每个Reduce做部分聚合操作，并输出结果。这样处理的结果是相同的Group By Key有可能被分发到不同的Reduce中，从而达到负载均衡的目的；

第二个MR Job再根据预处理的数据结果按照Group By Key分布到Reduce中（这个过程可以保证相同的Group By Key被分布到同一个Reudce中），最后完成最终的聚合操作。

2）SQL语句调节

如何Join：
关于驱动表的选取，选用Join key分布最均匀的表最为驱动表，做好列裁剪和filter操作，以达到两表做join的时候，数据量相对变小。
大小表Join：
使用map join让小的维度表（1000条以下的记录条数）先进内存。在map端完成reduce

大表Join大表：
把空值的key变成一个字符串加上随机数，把倾斜的数据分到不同的reduce上，由于null值关联不上，处理后并不影响最终结果。

count distinct大量相同特殊值：
count distinct时，将值为空的情况单独处理，如果是计算count distinct，可以不用处理，直接过滤，在最后结果+1

group by维度过小：
采用sum() group by的方式来替换count(distinct)完成计算

特殊情况特殊处理：
在业务逻辑优化效果的一般的情况下，可以将倾斜的数据单独拿出来处理，最后union回去。

Hive的自定义函数

Hive自带了一些函数，比如max/min等，但是数量有限。当Hive提供的内置函数无法满足业务处理需求时，可通过考虑用户自定义函数，用户自定义函数有以下三种：

UDF（User-Defined-Function）：一进一出
UDAF（User-Defined Aggregation Function）：聚集函数，多进一出（类似count、max）
UDTF（User-Defined Table-Generating Functions）：一进多出（类似lateral view exploed()）

完成步骤

1）导入依赖
2）创建一个类，继承于Hive自带的UDF
3）打成jar包上传到linux服务器
4）将jar包添加到hive的classpath
5）创建临时函数与开发好的java class关联

Hive的sort by、distribute by、cluser by、order by区别

sort by：不是全局排序，数据在进入reducer前完成排序
distribute by：按照指定的字段对数据进行划分输出到不同的reduce中
cluster by：除了具有distribute by的功能之外兼具sort by
order by：对输入做全局排序，只有一个reducer（多个reducer无法保证全局有序）

Hive分区和分桶的区别

1、定义上

分区
Hive的分区使用HDFS的子目录功能实现，每一个子目录包含了分区对应的列名和每一列的值。
Hive的分区方式：Hive实际是存储在HDFS上的抽象，一个分区名对应一个目录名，子分区名就是子目录名，并不是一个实际字段
注意：partitioned by自己中定义的列是表中正式的列（分区列），但是数据文件内不包含这些列

分桶
分桶表时在表或者分区表的基础上，进一步对表进行组织，Hive使用对分桶所用的值；
进行hash，用hash结果除以桶的个数做取余运算的方式来分桶，保证每个桶中都有数据

2、数据类型上

分区是非随机分割数据库；按照列的值分割，易造成数据倾斜；对应不同的文件夹（粗粒度）
分桶随机分割数据库；按照列的哈希函数分割，相对平均；对应不同的文件（细粒度），能获得比分区更高的查询处理效率

注意：普通表（内部表、外部表）、分区表这三个都是对应HDFS上的目录，桶表对应目录里的文件。

HQL转化为MR的过程

1、Join的实现原理

select u.name,o.orderid from order o join uuser u on o.uid = u.uid;

hive试题 hive面试题总结2020_面试_02

2、Group By实现原理

select rank,isonline,count(*) from group by rank,isonline

hive试题 hive面试题总结2020_面试_03

3、Distinct实现原理

select dealid,count(distinct uid) num from order group by dealid;

hive试题 hive面试题总结2020_hive试题_04

SQL转化为MapReduce过程

1、Antlr定义SQL的语法规则，完成SQL词法、语法解析、将SQL转化为抽象语法树AST Tree
2、遍历AST Tree，抽象出查询的基本组成单元QueryBlock
3、遍历QueryBlock，翻译为执行操作树OperatorTree
4、逻辑层优化器进行OperatorTree变换，合并不必要的ReduceSinkOperator，减少shuffle数据量
5、遍历OperatorTree，翻译为MR任务
6、物理层优化器进行MR任务的变化，生成最终的执行计划

Hive的存储引擎和计算引擎

1、计算引擎

MapReduce、Tez、Spark计算引擎

set hive.execution.engine=mr/spark/tez

Tez计算引擎

Apache Tez是进行大规模数据处理且支持DAG作业的计算框架，源于MR框架，允许不同类型的作业在一个集群中运行
将原有的Map、Reduce两个操作简化为一个概念——Vertex，将原有的计算节点拆分成多个部分：Vertex Input、Vertex Output、Sorting、Shuffling、Merging。计算节点之间的数据通信被统称为Edge

Tez也使用Yarn作为资源调度。Tez on Yarn将作业提交到AMPoolServer的服务上，AMPoolServer事先存放了启动ApplicationMaster的服务。当用户提交一个作业上来，AMPoolServer从中挑选一个ApplicationMaster用于管理用户提交上来的作业

Tez运行一次发送整个查询计划，实现应用程序动态规划，从而使框架能够更智能分配资源，并通过各个阶段流水线传输数据（MRR）

hive试题 hive面试题总结2020_Hive_05

Spark计算引擎

Apache Spark专门为大规模数据处理而设计的快速、通用支持DAG作业的计算引擎

2、存储引擎

Hive的文件存储格式（存储引擎）有四种：TEXTFILE、SEQUENCEFILE、PARQUET、ORC

EXTFILE：
	按行存储；不支持块压缩
	磁盘开销大，加载数据的速度最高
SEQUENCEFILE：
	按行存储
	Hadoop API提供的一种二进制文件，以<key,value>的形式序列化到文件中
PARQUET：
	按列存储
	压缩比较低，查询效率低
RCFILE：
	数据按行分块，每块按列存储
	同一行的数据位于同一节点，元组重构开销很低
	能够利用列维度的数据压缩，并且能跳过不必要的列读取
ORCFILE:
	RCFILE的改良版本，使用了索引
	提高了hive读、写和处理数据的能力

Join的操作原理

Hive中的Join可分为Common Join、Map Join

1、Common Join

select u.name o.orderid from order o join user u on o.uid = u.uid

Map阶段
读取源表的数据，Map输出的Key为Join on条件中的列，如果Join有多个关联键，则以关联键的组合作为Key
			 		 Value为之后所关心的列（select或者where中用到的）,同时value中会包含表的Tag
			 		
Shuffle阶段
根据Key的值进行hash，并将key/value按照hash值推送至不同的reduce中

Reduce阶段
根据Key的值完成Join操作，期间通过Tag来识别不同表中的数据

hive试题 hive面试题总结2020_hive_06

2、Map Join

小表Join大表的场景。在map端完成，节省了Shuffle阶段的开销

Mapjoin设置：hive.auto.convert.join=true
小表大小设置：hive.mapjoin.smalltable.filesize，默认为25M

TaskA是一个Local Task，负责扫描小表b中的数据，将其转化成一个HashTable的数据结构，并写入本地的文件中，文件之后加载到DistributeCache中
TaskB，是一个没有Reduce的MR，启动MapTasks扫描大表a，根据a的每一条记录去和DistributeCache中b表对应的HashTable关联，并直接输出结果

hive试题 hive面试题总结2020_big data_07

3、SMB Join

smb是sort merge bucket操作，也就是首先排序、继而合并、最后放到对应的bucket中去。

在进行两个表联合的时候，首先进行分桶，将table1中的小部分和table1中的小部分进行联合，减少无关项的扫描

Hive上传数据到HDFS，小文件问题

小文件太多的出现：
	源数据本身有很多小文件
	动态分区产生很多小文件
	reduce个数越多，小文件越多
	按分区插入数据产生很多小文件，文件个数=maptask个数*分区数

小文件太多的影响：
	从Hive角度看，会启动很很多map,一个map需要一个JVM去执行，任务的初始化浪费资源
	HDFS存储太多小文件，导致NN元数据特别多，占有其太多内存

1、通过调整参数合并

--调整每个Map最大输入大小：决定合并后的文件数量
set mapred.max.split.size=256000000
--一个节点上split的最小大小：决定多个DN上的文件是否需要合并
set mapred.min.split.size.per.node=1000000000
--一个交换机下split的最小大小：决定多个交换机上的文件是否需要合并
set mapred.min.split.size.per.rack=1000000000
--执行Map前，进行小文件合并
set hive.input.format=org.apache.hadoop.hive.sql.io.CombineHiveInputFormat

--在map-only job后合并文件,默认true
set hive.merge.mapfiles=true
--在map-reduce job后合并文件,默认false
set hive.merge.mapredfiles=true
--合并后每个文件的大小，默认256000000
set hive.merge.size.per.task=256000000
--平均文件大小，觉得是否执行合并操作的阈值，默认16000000
set hive.merge.smallfiles.avgsize=1000000000

2、针对分区插入数据的时候产生的大量小文件问题，使用DISTRIBUTE BY rand()将数据随机分配给Reduce，使每个Reduce处理的数据大体一致

--设置每个reducer处理的大小为5个G
set hive.exec.reducers.bytes.per.reducer=512000000

insert overwrite table test partition(dt)
select * from iteblog_tmp
DISTRIBUTE BY rand()

3、使用Sequencefile作为表存储格式

4、使用Hadoop的archhive归档

--用来控制归档是否可用
set hive.archive.enabled=true;
--通知Hive在创建归档时是否可以设置父目录
set hive.archive.har.parentdir.settable=true;
--控制需要归档文件的大小
set har.partfile.size=1099511627776

--使用以下命令进行归档
ALTER TABLE srcpart ARCHIVE PARTITION(ds='2008-04-08',hr='12');
--对已归档的分区恢复会原文件
ALTER TABLE srcpart UNARCHIVE PARTITION(ds='2008-04-08',hr='12');

--注意：归档的分区不能够INSERT OVERWRITE，必须先UNARCHIVE

Hive保存元数据的方式

内嵌模式：将元数据保存在本地内嵌的derby数据库中，内嵌的derby数据库每次只能访问一个数据文件
本地模式：将元数据保存在本地独立的数据库中（一般是mysql），支持多会话连接
远程模式：将元数据保存在远程独立的数据库中，避免每个客户都去安装数据库（例如mysql）

内嵌模式不需要额外启metastore服务，这个是默认的，配置简单，适用于实验。
本地模式不需要单独启metastore服务，用的是hive在同一个进程里的metastore服务
远程模式需要单独启metastore服务，然后每个客户端在配置文件里需要配置连接metastore服务

Hive开窗函数

分析函数：用于计算基于组的某种聚合值

开窗函数：指定分析函数工作的数据窗口大小

分析函数（sum(),max(),row_number()...） + 窗口自己（over函数）

1、SUM函数
sum()根据每一行的窗口返回各自行对应的值，有多少行记录就有多少个sum值

2、NTILE函数
NTILE(n)用于将分区数据按照顺序切分成n片，返回当前切片值
	如果切片不均匀，默认增加第一个切片的分布
	不支持ROWS BETWEEN

3、ROW_NUMBER函数
ROW_NUMBER()从1开始，按照顺序，生成分组内记录的序列

4、RANK和DENSE_RANK函数
RANK()生成数据项在分组中的排名，排名相等会在名次中留下空位
DENSE_RANK()生成数据项在分组中的排名，排名相等在名次中不会留下空位

5、CUME_DIST函数
CUME_DIST()返回小于等于当前值的行数/分组内总行数

6、PERCENT_RANK函数
PERCENT_RANK分组当前行的rank值-1/分组内总函数-1

7、LAG和LEAD函数
LAG(col,n,DEFAULT)用于统计窗口内往上第n行值
LEAD(col,n,DEFAULT)用于统计窗口内往下第n行值
col：列名	n：往上第n行	DEFALUT：往上第n行为NULL时，取默认值，不指定为NULL

8、FIRST_VALUE和LAST_VALUE函数
FIRST_VALUE()取分组内排序后，截止到当前行第一个值
LAST_VALUE()取分组内排序后，截止到当前行最后一个值

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。