hive 分桶表

原创

塞上江南o 2022-12-28 15:24:39 博主文章分类：Hive ©著作权

©著作权归作者所有：来自51CTO博客作者塞上江南o的原创作品，请联系作者获取转载授权，否则将追究法律责任

分区针对的是数据的存储路径（分区是根据表的某一列得到的，分区不同，数据存储的文件夹不同）；分桶针对的是数据文件（分桶是根据表的某一列下数据值，经hash取余得到的）
分区字段不能是表中已经存在的字段；分桶的字段必须是表中已经存在的字段
2者都是hive的一种优化手段，为了提高查询效率

创建分桶表

写sql

（1）设置桶的个数为4个
（2）按照id字段进行分桶

create table stu_buck(id int, name string)
clustered by(id) into 4 buckets
row format delimited fields terminated by '\t';

注意： 分桶表数据的填充，要借助其他表来完成（从其它表中查询数据，然后根据分桶规则，将查询过来的数据放置在不同桶中）

在建一个普通的stu表

这个普通表的字段必须和分桶表的字段保持一致

create table stu(id int, name string)
row format delimited fields terminated by '\t';

向普通表中导入数据
stu_buck.txt

load data local inpath '/opt/modules/input/stu_buck.txt' into table stu;

打开分桶属性

v3.1.2之前需要设置以下参数

#开启分桶
hive (default)> set hive.enforce.bucketing=true;

数据通过子查询的方式导入分桶表

insert into table stu_buck
select id, name from stu;

web页面查看数据文件的存储形式

hive 分桶表_hive

分桶表的优点

基于分桶字段查询时，减少全表扫描
JOIN时可以提高MR程序效率，减少笛卡尔积数量

hive 分桶表_hive_02

分桶表数据可以进行高效抽样

上一篇：linux 安装 mysql8.x

下一篇：hive 小文件产生的原因危害解决方案

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯

hive 分桶表

hive 分桶表

导航

hive outline

分桶表分区表区别与联系

创建分桶表

分桶表的优点

51CTO博客

hive 分桶表

hive 分桶表

导航

hive outline

分桶表 分区表 区别与联系

创建分桶表

分桶表的优点

51CTO博客

分桶表分区表区别与联系