静态分区与动态分区的区别:

1、静态分区

2、动态分区


静态分区与动态分区的区别:

  • 静态分区是先把分区表创好,然后手动把数据导入到对应的分区里面去。
  • 静态分区实在编译期间指定分区名
  • 静态分区支持load、insert两种插入方式。
  • 静态分区是用于分区少,分区名可以明确的数据。
  • 动态分区是有一份数据集(2015-2022年的),按照数据集的字段给动态的生成分区。
  • 动态分区实在SQL执行的时候确定的。
  • 动态分区前需打开:set hive.exec.dynamic.partition.mode=nonstrict;
  • 动态分区只能用insert方式。
  • 动态分区通过普通表选出的字段包含分区字段,分区字段放在最后多个分区字段按照分区顺序放置。
  • 比如 [订单编号,订单创建时间,订单详情编号,订单价格,订单配送员...]
  • 订单创建时间(2021-11-12 12:22:49)把这个字段作为分区的字段。2021-11 这个作为分区条件。

面试题:什么时候使用静态分区,什么时候使用动态分区?

1、静态分区

  • 静态分区是指增加数据是需要手动指定具体的分区目录
  • 静态分区的列实在编译时期,通过用户传递列名来决定的
  • 静态分区不管有没有数据都将会创建该分区
//分区的本质就是文件夹
//静态分区实例:
//创建外部分区表 ratings
create external table ratings(
     user_id integer,
     movie_id integer,
     `timestamp` bigint
)partitioned by (rating decimal(2,1))      //decimal(2,1) 两个数字、一位小数
row format delimited
fields terminated by  ','
stored as textfile;

//查看表ratings定义
desc formatted ratings;

//静态分区数据挂载
//手动加载数据到分区表中,静态分区一次只能操作一个
load data local inpath '/root/kb18/ratings_5.0.csv'
    into table ratings partition (rating=5.0);

select * from ratings limit 20;
  • HDFS在你指定数据库下,即会存在 ratings/rating=5的文件。

2、动态分区

  • 动态分区增加数据时不用手动指定分区目录,而是由系统通过数据来进行判断。
  • 动态分区实在SQL执行的时候确定的。
  • 动态分区是有结果集将创建分区,否则不创建。
  • 动态分区虽然方便快捷,但创建太多分区时可能会占用大量资源。
//动态分区实例:
//创建外部分区表ods_ratings

create external table ods_ratings
(
    user_id     integer,
    movie_id    integer,
    rating      decimal(2, 1),
    `timestamp` bigint
)
    row format delimited
        fields terminated by  ','
    stored as textfile
    location '/kb18/hive/ratings_dir'                   //数据存在hdfs路径
    tblproperties ("skip.header.line.count"="1");       //除去首行


select * from ods_ratings limit 10;

//查看模式 默认为strict 此模式不支持动态分区
set hive.exec.dynamic.partition.mode;
//设置为nonstrict
set hive.exec.dynamic.partition.mode=nonstrict;

//写入表 指定分区字段为rating
insert overwrite table ratings partition(rating)
select user_id,movie_id,`timestamp`,rating from ods_ratings;
  • HDFS上生成分区表:

 

hive insert overwrite 动态分区有什么好处 hive load data 动态分区_hive