内部表和外部表

  • 1.内外部表区别
  • 2.分区表
  • 2.1 一级分区表
  • 2.2 二级分区表
  • 3.手动在HDFS中创建分区目录的修复
  • 2.产看分区表


1.内外部表区别

Hive里面有两种数据:1.data(表数据):存储在HDFS
2.metadata(元数据):存储在MySQL

内部表(managed):hive.metastore.warehouse.dir=/use/hive/warehouse    #内部表的创建,默认路径
                   当删除表====》同时删除data+medadata
 外部表(external):create external table 表名 location ‘filepath’;    #创建表,可以指定任意路径
 					当删除表====》仅仅删除metadata(MySQL),其中对于表数据(HDFS)上面的数据还是存在的,即HDFS中的路径和文件都存在,只是MySQL中的元数据被删除
 					这种在生产工作当中用的比较多 

表数据:存储在HDFS      #内部表会删除,但是外部表上在HDFS中的数据不会被删除
元数据:存储在MySQL     #内外表都是删除掉

2.分区表

Hive中的分区其实就是HDFS中的一个目录,相当于把一个大的数据集根据业务需求分割成更小的数据集,在查询的时候使用where子句的表达式选择查询所需要指定的分区,这个查询efficienty will improve

2.1 一级分区表

1.创建分区表
create table 表名(字段 字段类型,...)partition by (字段 字段类型) row format delimited fields terminated by '\t';

2.加载数据(将本地数据加载到Hive分区表)
load data loca inpath 'filepath' into table 表名 partiton(字段='value');

3.分区查询
select * from 表名 where 分区字段=‘value’;

如1:
create  table emp_partiton(
empno int,
ename string,
job string,
mgr int,
hiredate string,
sal double,
comm double,
deptno int
)partitioned by(mounth string)
ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t'
如2:
load data local input '/home/hadoop/tmp/emp.tex' into table emp_partiton partiton(mouth='20200722');
如3:
select * from emp_partiton where mouth='20200722';

2.2 二级分区表

1.创建表
create table 表名(字段 字段类型,...)partitoned by(字段1 字段类型,字段2 字段类型) row format delimited fields terminated by '\t';

2.加载数据
load data local inpath 'filepath' into table 表名 partition(字段1='value',字段2='value');

3.分区查询
select * from  表名 where 分区字段1='value' and 分区字段2='value';

如1:
create  table emp2_partiton(
empno int,
ename string,
job string,
mgr int,
hiredate string,
sal double,
comm double,
deptno int
)partitioned by(mouth string,day string)
ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t';

如2:
load data local inpath '/home/hadoop/tmp/emp.txt' into table emp2_partiton partition(mouth='202008',day='22');

如3:
select * from emp2_partiton where mouth='202008' and day='22';

3.手动在HDFS中创建分区目录的修复

Hive命令行窗口其实也是可以执行操作系统命令

1.手动创建分区目录(HDFS)
dfs -mkdir -p /user/hive/warehouse/表名/分区字段;
2.查找元数据(MySQL)
mysql -uroot -p
use hive;
show tables;
select * from PARTITIONS;

----------------------------------
如1:
dfs -mkdir -p /user/hive/warehouse/emp_partiton/mounth=202006;

如2:
mysql -uroot -p
use hive;
show tables;
select * from PARTITIONS;    #发现分区没有20206

1.问题:

手动创建的HDFS分区目录,在元数据中不能被识别,需要使用Hive命令进行修复

2.Solve:

修复1:
msck repair table emp_partiton;

修复2:
alter table emp_partiton add partition(mounth='202006');

-------------------------
如:
dfs -mkdir -p /user/hive/warehouse/emp_partiton/mounth=202006;
dfs -put /home/hadoop/tmp/emp.txt /user/hive/warehouse/emp_partiton/mounth=202006;
alter table emp_partiton add partition(mounth='202006');或者msck repair table emp_partiton;

备注:企业中常用的是第二种修复方法

2.产看分区表

select * from 表名 where 分区字段=value;   #通过分区字段进行查询
show partitions 表名:   #查看表的分区都有哪些