分区是一种根据“分区列”(partition column)的值对表进行粗略划分的机制。Hive中每个分区对应着表很多的子目录,将所有的数据按照分区列放入到不同的子目录中去。
Hive(Inceptor)分区又分为单值分区、范围分区。单值分区表的建表方式有两种:直接定义列和 CREATE TABLE LIKE。注意,单值分区表不能用 CREATE TABLE AS SELECT 建表。而范围分区表只能通过直接定义列来建表。
单值分区根据插入时是否需要手动指定分区可以分为:单值静态分区:导入数据时需要手动指定分区。单值动态分区:导入数据时,系统可以动态判断目标分区。
1.单值分区
1.1创建静态分区
直接在 PARTITIONED BY 后面跟上分区键、类型即可。(分区键不能和任何列重名)
1.2创建动态分区
创建方式与静态分区表完全一样,一张表可同时被静态和动态分区键分区,只是动态分区键需要放在静态分区键的后面(因为HDFS上的动态分区目录下不能包含静态分区的子目录),
数据写入:静态分区键要用 <spk>=<value> 指定分区值;动态分区只需要给出分区键名称 <dpk>。(见以下静态分区和动态分区混用实列)
静态分区和动态分区混用:动态分区键需要放在静态分区键的后面(因为HDFS上的动态分区目录下不能包含静态分区的子目录)
例:
--动态分区配置
set hive.exec.dynamic.partition=true; ----开启动态分区支持
set hive.exec.max.dynamic.partitions=2000; -----设置最大分区数
set hive.exec.dynamic.partition.mode=nonstrict; -----开启非严格模式,这个属性默认值是strict
注意,如果个人电脑性能不好,出现因为动态分区而导致的内存溢出问题,可以设置hive.optimize.sort.dynamic.partition进行避免:
设置为true后,当启用动态分区时,reducer仅随时保持一个记录写入程序,从而降低对 reducer产生的内存压力。但同时也会使查询性能变慢。
1.3过多的动态分区会导致如下错误:
Error: java.lang.RuntimeException: org.apache.hadoop.hive.ql.
metadata.HiveFatalException: [Error 20004]: Fatal error occurred when node tried to create too many dynamic partitions. The maximum number of dynamic partitions is controlled by hive.exec.max.dynamic.partitions and hive.exec.max.dynamic.partitions.pernode. Maximum was set to: 100
解决:
set hive.exec.max.dynamic.partitions.pernode=10000;
set hive.exec.max.dynamic.partitions=100000;
Hive动态分区创建文件数过多错误:
[Fatal Error] total number of created files now is 100385, which exceeds 100000. Killing the job.
解决:
set hive.exec.max.created.files=150000;
2.范围分区:
单值分区每个分区对应于分区键的一个取值,每个范围分区则对应分区键的一个区间,只要落在指定区间内的记录都被存储在对应的分区下。
分区范围需要手动指定,分区的范围为前闭后开区间 [最小值, 最大值)。最后出现的分区可以使用 MAXVALUE 作为上限,MAXVALUE 代表该分区键的数据类型所允许的最大值。
例: