hive分区表插入/导入数据

原创

香山上的麻雀 2022-01-07 16:25:07 博主文章分类：Hive ©著作权

©著作权归作者所有：来自51CTO博客作者香山上的麻雀的原创作品，请联系作者获取转载授权，否则将追究法律责任

数据库分区的主要目的是为了在特定的SQL操作中减少数据读写的总量以缩减响应时间，主要包括两种分区形式：水平分区与垂直分区。水平分区是对表进行行分区。而垂直分区是对列进行分区，一般是通过对表的垂直划分来减少目标表的宽度，常用的是水平分区.

1. hive建立分区表

create external table if not exists tablename(
a string,
b string)
partitioned by (year string,month string)
row format delimited fields terminated by ','
stored as orc

2. 向分区表插入数据

2.1. 静态插入数据

要求插入数据时指定与建表时相同的分区字段

INSERT OVERWRITE TABLE tablename partition(year='2017', month='03')
SELECT a, b
FROM tablename2

2.2 动静混合分区插入

要求指定部分分区字段的值

INSERT OVERWRITE TABLE tablename partition(year='2017', month)
SELECT a, b
FROM tablename2;

2.3. 动态分区插入

只指定分区字段，不用指定值

INSERT OVERWRITE TABLE tablename partition(year, month)
SELECT a, b
FROM tablename2;

3. hive动态分区相关参数设置

使用动态分区表必须配置的参数:

--（默认false）,表示开启动态分区功能
set hive.exec.dynamic.partition =true;
 
--(默认strict),表示允许所有分区都是动态的,strict/nonstrict，strict 要求至少包含一个静态分区列，nonstrict则无此要求
set hive.exec.dynamic.partition.mode = nonstrict;

动态分区相关的调优参数:

--（默认100，一般可以设置大一点，比如1000）.表示每个maper或reducer可以允许创建的最大动态分区个数，默认是100，超出则会报错。
set hive.exec.max.dynamic.partitions.pernode=100 
 --默认1000,表示一个动态分区语句可以创建的最大动态分区个数，超出报错
set hive.exec.max.dynamic.partitions =1000
--默认10000,全局可以创建的最大文件个数，超出报错。
set hive.exec.max.created.files =10000