fenqu是一个文件 hive hive 范围分区

转载

jiecho 2023-07-11 14:47:05

文章标签 fenqu是一个文件 hive hive 子目录分区表 文章分类 Hive 大数据

分区是一种根据“分区列”（partition column）的值对表进行粗略划分的机制。Hive中每个分区对应着表很多的子目录，将所有的数据按照分区列放入到不同的子目录中去。

Hive(Inceptor)分区又分为单值分区、范围分区。单值分区表的建表方式有两种：直接定义列和 CREATE TABLE LIKE。注意，单值分区表不能用 CREATE TABLE AS SELECT 建表。而范围分区表只能通过直接定义列来建表。

单值分区根据插入时是否需要手动指定分区可以分为：单值静态分区：导入数据时需要手动指定分区。单值动态分区：导入数据时，系统可以动态判断目标分区。

1.单值分区

1.1创建静态分区

直接在 PARTITIONED BY 后面跟上分区键、类型即可。（分区键不能和任何列重名）

fenqu是一个文件 hive hive 范围分区_子目录

1.2创建动态分区

创建方式与静态分区表完全一样，一张表可同时被静态和动态分区键分区，只是动态分区键需要放在静态分区键的后面（因为HDFS上的动态分区目录下不能包含静态分区的子目录），

fenqu是一个文件 hive hive 范围分区_fenqu是一个文件 hive_02

数据写入：静态分区键要用 <spk>=<value> 指定分区值；动态分区只需要给出分区键名称 <dpk>。（见以下静态分区和动态分区混用实列）

静态分区和动态分区混用：动态分区键需要放在静态分区键的后面（因为HDFS上的动态分区目录下不能包含静态分区的子目录）

例：

fenqu是一个文件 hive hive 范围分区_fenqu是一个文件 hive_03

--动态分区配置
set hive.exec.dynamic.partition=true; ----开启动态分区支持
set hive.exec.max.dynamic.partitions=2000; -----设置最大分区数
set hive.exec.dynamic.partition.mode=nonstrict; -----开启非严格模式，这个属性默认值是strict

注意，如果个人电脑性能不好，出现因为动态分区而导致的内存溢出问题，可以设置hive.optimize.sort.dynamic.partition进行避免：

fenqu是一个文件 hive hive 范围分区_分区表_04

设置为true后，当启用动态分区时，reducer仅随时保持一个记录写入程序，从而降低对 reducer产生的内存压力。但同时也会使查询性能变慢。

1.3过多的动态分区会导致如下错误：

Error: java.lang.RuntimeException: org.apache.hadoop.hive.ql.
metadata.HiveFatalException: [Error 20004]: Fatal error occurred when node tried to create too many dynamic partitions. The maximum number of dynamic partitions is controlled by hive.exec.max.dynamic.partitions and hive.exec.max.dynamic.partitions.pernode. Maximum was set to: 100

解决：

set hive.exec.max.dynamic.partitions.pernode=10000;
set hive.exec.max.dynamic.partitions=100000;

Hive动态分区创建文件数过多错误：

[Fatal Error] total number of created files now is 100385, which exceeds 100000. Killing the job.

解决：

set hive.exec.max.created.files=150000;