hadoop读取文件分区 hadoop分区表

转载

智能领航员 2024-08-14 20:51:23

文章标签 hadoop读取文件分区大数据 hive hadoop 分区表 文章分类 Hadoop 大数据

分区表

分区表

分区表基本操作

创建分区表语法
加载数据到分区表中

准备数据
加载数据

增加分区

创建单个分区
同时创建多个分区

删除分区

删除单个分区
同时删除多个分区

查看分区表有多少分区
查看分区表结构

二级分区

创建二级分区表
正常的加载数据

加载数据到二级分区表中
查询分区数据

把数据直接上传到分区目录上，让分区表和数据产生关联的三种方式

动态分区调整

开启动态分区参数设置

相关配置项
案例

分区表

分区表实际上就是对应一个 HDFS 文件系统上的独立的文件夹，该文件夹下是该分区所有的数据文件。Hive 中的分区就是分目录，把一个大的数据集根据业务需要分割成小的数据集。在查询时通过 WHERE 子句中的表达式选择查询所需要的指定的分区，这样的查询效率会提高很多。

分区表基本操作

创建分区表语法

注意：分区字段不能是表中已经存在的数据，可以将分区字段看作表的伪列。

create table user_partition( 
	no int, 
	name string,
)
partitioned by (day string)
row format delimited fields terminated by '\t';

加载数据到分区表中

准备数据

20230312.log
20230313.log
20230314.log

加载数据

注意：分区表加载数据时，必须指定分区

load data local inpath
'/data/20230312.log' into table user_partition partition(day='20230312');

load data local inpath
'/data/20230313.log' into table user_partition partition(day='20230313');

load data local inpath
'/data/20230314.log' into table user_partition partition(day='20230314');

增加分区

创建单个分区

alter table user_partition add partition(day='20230311');

同时创建多个分区

alter table user_partition add partition(day='20230309') partition(day='20230310');

删除分区

删除单个分区

alter table user_partition drop partition (day='20230309');

同时删除多个分区

alter table user_partition drop partition (day='20230311'), partition(day='20230310');

查看分区表有多少分区

show partitions user_partition;

查看分区表结构

desc formatted user_partition;

二级分区

创建二级分区表

create table access_log( id int, name string, loc string
) partitioned by (day string, hour string);

正常的加载数据

加载数据到二级分区表中

load data local inpath '/data/access_20230312.log' into table access_log partition(day='202303', hour='12');

查询分区数据

select * from access_log where day='202303' and hour='12';

把数据直接上传到分区目录上，让分区表和数据产生关联的三种方式

方式一：上传数据后修复上传

hive (default)> dfs -mkdir -p
/hive/warehouse/op_log.db/access_log/day=202303/hour=12;

hive (default)> dfs -put /data/access_20230312.log
/hive/warehouse/op_log.db/access_log/day=202303/hour=12;

查询数据（查询不到刚上传的数据）

select * from access_log where day='202303' and hour='12';

执行修复命令

msck repair table access_log;

执行查询

方式二：上传数据后添加分区上

hive (default)> dfs -mkdir -p
/hive/warehouse/op_log.db/access_log/day=202304/hour=14; 
hive (default)> dfs -put /data/access_20230414.log
/hive/warehouse/op_log.db/access_log/day=202304/hour=14;

执行添加分区

hive (default)> alter table access_log add partition(day='202304',hour='14');

执行查询

方式三：创建文件夹后 load 数据到分区创建目录
建目录

hive (default)> dfs -mkdir -p
/hive/warehouse/op_log.db/access_log/day=202303/hour=15;

上传数据

hive (default)> load data local inpath '/data/access_20230315.log' into table access_log partition(day='202303',hour='15');

执行查询

动态分区调整

关系型数据库中，对分区表 Insert 数据时候，数据库自动会根据分区字段的值，将数据插入到相应的分区中，Hive 中也提供了类似的机制，即动态分区(Dynamic Partition)，只不过，使用 Hive 的动态分区，需要进行相应的配置。

开启动态分区参数设置

案例

需求：将 user 表中的数据按照地区（loc 字段），插入到目标表 person 的相应分区中。

创建目标分区表

hive (default)> create table user_partition(id int, name string) partitioned by (loc int) row format delimited fields terminated by '\t';

设置动态分区

set hive.exec.dynamic.partition.mode = nonstrict;
hive (default)> insert into table user_partition partition(loc) select id, name, loc from user;

查看目标分区表的分区情况

hive (default)> show partitions user_partition;

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

上一篇：spark关闭动态资源 spark 资源

下一篇：微服务和MVC架构

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯

hadoop读取文件分区 hadoop分区表

hadoop读取文件分区 hadoop分区表

分区表

分区表

分区表基本操作

创建分区表语法

加载数据到分区表中

准备数据

加载数据

增加分区

创建单个分区

同时创建多个分区

删除分区

删除单个分区

同时删除多个分区

查看分区表有多少分区

查看分区表结构

二级分区

创建二级分区表

正常的加载数据

加载数据到二级分区表中

查询分区数据

把数据直接上传到分区目录上，让分区表和数据产生关联的三种方式

动态分区调整

开启动态分区参数设置

相关配置项

案例

51CTO博客