
  • 1. 分区表
  • 1.1 创建分区表、加载数据
  • 1.2 增加删除多个分区、查看表的分区
  • 1.3 二级分区
  • 1.4 把数据直接上传到分区目录上,让分区表和数据关联
  • 1.5 动态分区
  • 2. 分桶表
  • 2.1 概念
  • 2.2 创建分桶表、导入数据
  • 3. 抽样查询

1. 分区表

1.1 创建分区表、加载数据


hive (default)> create table dept_partition(
deptno int, dname string, loc string
partitioned by (day string)
row format delimited fields terminated by '\t';


load data local inpath '/home/hdfs/data/dept/dept_20200401.log' into table dept_partition partition(day='20200401');

1.2 增加删除多个分区、查看表的分区


alter table dept_partition add partition(day='20200404');
alter table dept_partition add partition(day='20200406') partition(day='20200405');


alter table dept_partition drop partition(day='20200406'),partition(day='20200405');


show partitions dept_partition;

1.3 二级分区


create table dept_partition2(
               deptno int, dname string, loc string
               partitioned by (day string, hour string)
               row format delimited fields terminated by '\t';


load data local inpath '/home/hdfs/data/dept/dept_20200403.log' into table dept_partition2 partition(day='20200403',hour='12');


select * from dept_partition2 where day='20200403' and hour='12';

1.4 把数据直接上传到分区目录上,让分区表和数据关联

  msck repair table 表名命令用于修复表分区,常用于手动复制分区数据到hive表location下,此分区没有记录到Hive元数据,所以查不到数据


dfs -mkdir -p /apps/hive/warehouse/dept_partition2/day=20200402/hour=12;
dfs -put /home/hdfs/data/dept/dept_20200402.log /apps/hive/warehouse/dept_partition2/day=20200402/hour=12;


msck repair  table dept_partition2;

1.5 动态分区

  关系型数据库中,对分区表Insert数据时,数据库自动会根据分区字段的值,将数据插入到相应的分区中,Hive中提供了类似的机制,即动态分区(Dynamic Partition)










  整个MR Job中,最大可以创建多少个HDFS文件。默认100000





create table dept_partition_dy(id int, name string) partitioned by (loc int) row format delimited fields terminated by '\t';


insert into table dept_partition_dy partition(loc) select deptno, dname, loc from dept;

show partitions dept_partition;

2. 分桶表

2.1 概念

  并非所有的数据集都可形成合理的分区。对于一张表或者分区,Hive 可以进一步组织成桶,进行更为细粒度的数据范围划分。分区针对的是数据的存储路径;分桶针对的是数据文件

2.2 创建分桶表、导入数据


create table stu_bucket(id int, name string)
clustered by(id) 
into 4 buckets
row format delimited fields terminated by '\t';


insert into table stu_bucket select * from stu_insert;

3. 抽样查询

  对于非常大的数据集,有时用户需要使用的是一个具有代表性的查询结果而不是全部结果。Hive可以通过对表进行抽样来满足这个需求。语法: TABLESAMPLE(BUCKET x OUT OF y)

select * from stu_bucket tablesample(bucket 1 out of 4 on id);

