hive分区表分桶表区别 hive分桶和分区的区别

关注 charlesc

文章目录

一、分区和分桶的概念
分区：
分桶：
二、分区实现
1、创建分区
按年创建分区t1：
按年月创建分区t2：
2、向分区添加数据
向年分区t1中添加数据
向年月分区t2添加数据
3、效果如下
年分区：
年月分区：
三、分桶的实现
1、分桶之前要执行命令hive.enforce.bucketing=true;
2、要使用关键字clustered by 指定分区依据的列名，还要指定分为多少桶
3、向桶中插入数据：
4、查看桶信息：
5、查看分桶数据，要指定关键字tablesample

hive分区表分桶表区别 hive分桶和分区的区别

转载

charlesc 2023-09-08 18:39:55

文章标签 hive分区表分桶表区别 hive 数据添加数据 文章分类 Hive 大数据

目录

一、分区和分桶的概念

分区：

分桶：

二、分区实现

1、创建分区

按年创建分区t1：

按年月创建分区t2：

2、向分区添加数据

向年分区t1中添加数据

向年月分区t2添加数据

3、效果如下

年分区：

年月分区：

三、分桶的实现

1、分桶之前要执行命令hive.enforce.bucketing=true;

2、要使用关键字clustered by 指定分区依据的列名，还要指定分为多少桶

3、向桶中插入数据：

4、查看桶信息：

5、查看分桶数据，要指定关键字tablesample

一、分区和分桶的概念

分区：

是指按照数据表的某列或某些列分为多个区，区从形式上可以理解为文件夹，比如我们要收集某个大型网站的日志数据，一个网站每天的日志数据存在同一张表上，由于每天会生成大量的日志，导致数据表的内容巨大，在查询时进行全表扫描耗费的资源非常多。那其实这个情况下，我们可以按照日期对数据表进行分区，不同日期的数据存放在不同的分区，在查询时只要指定分区字段的值就可以直接从该分区查找。

分桶：

分桶是相对分区进行更细粒度的划分。分桶将整个数据内容安装某列属性值得hash值进行区分，如要安装name属性分为3个桶，就是对name属性值的hash值对3取摸，按照取模结果对数据分桶。如取模结果为0的数据记录存放到一个文件，取模为1的数据存放到一个文件，取模为2的数据存放到一个文件。

假设我们有一张地域姓名表并按城市分区。那么很有可能，北京分区的人数会远远大于其他分区，该分区的数据I/O吞吐效率将成为查询的瓶颈。如果我们对表中的姓名做分桶，将姓名按哈希值分发到桶中，每个桶将分配到大致均匀的人数。

分桶解决的是数据倾斜的问题

二、分区实现

1、创建分区

按年创建分区t1：

hive (default)> create table t1(id int,dname string,loc string) partitioned by
> (year string);

按年月创建分区t2：

hive (default)> create table t2(id int,dname string,loc string) partitioned by
> (year string,month string);

注意：表的类型需要和添加数据的类型对应，而partitioned by后的分区类型不能与表中存在的类型重复

2、向分区添加数据

向年分区t1中添加数据

hive (default)> load data local inpath '/root/Desktop/20191102' overwrite into
> table t1 partition ( year='2019');

向年月分区t2添加数据

hive (default)> load data local inpath '/root/Desktop/20191102' overwrite into
> table t2 partition ( year='2019',month='11');

3、效果如下

年分区：

hive分区表分桶表区别 hive分桶和分区的区别_hive分区表分桶表区别

年月分区：

hive分区表分桶表区别 hive分桶和分区的区别_hive分区表分桶表区别_02

三、分桶的实现

1、分桶之前要执行命令hive.enforce.bucketing=true;

hive (default)> set hive.enforce.bucketing=true;

hive分区表分桶表区别 hive分桶和分区的区别_hive_03

2、要使用关键字clustered by 指定分区依据的列名，还要指定分为多少桶

hive (default)> create table b1(id int,dname string,loc string) clustered by(dname) into 3
> buckets row format delimited fields terminated by '\t';

3、向桶中插入数据：

准备好的dept表

hive分区表分桶表区别 hive分桶和分区的区别_hive分区表分桶表区别_04

hive (default)> insert overwrite table b1 select * from dept;

hive分区表分桶表区别 hive分桶和分区的区别_添加数据_05

4、查看桶信息：

hive分区表分桶表区别 hive分桶和分区的区别_hive_06

5、查看分桶数据，要指定关键字tablesample

hive (default)> select * from b1 tablesample(bucket 1 out of 3 on id);

备注:模为0

hive分区表分桶表区别 hive分桶和分区的区别_数据_07

备注:模为1

hive分区表分桶表区别 hive分桶和分区的区别_数据_08

备注:模为2

hive分区表分桶表区别 hive分桶和分区的区别_hive分区表分桶表区别_09

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

赞
收藏
评论
分享
举报

上一篇：iostat案例 apple案例分析

下一篇：python怎么读文件快 python文件读操作方法

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

charlesc

关注

职场话题

2024软考

华为认证

K8s

数据库

近期文章

文章目录

一、分区和分桶的概念
分区：
分桶：
二、分区实现
1、创建分区
按年创建分区t1：
按年月创建分区t2：
2、向分区添加数据
向年分区t1中添加数据
向年月分区t2添加数据
3、效果如下
年分区：
年月分区：
三、分桶的实现
1、分桶之前要执行命令hive.enforce.bucketing=true;
2、要使用关键字clustered by 指定分区依据的列名，还要指定分为多少桶
3、向桶中插入数据：
4、查看桶信息：
5、查看分桶数据，要指定关键字tablesample

举报文章

请选择举报类型

内容侵权涉嫌营销内容抄袭违法信息其他

具体原因

包含不真实信息涉及个人隐私

原文链接（必填）

补充说明

0/200

上传截图

格式支持JPEG/PNG/JPG，图片不超过1.9M

已经收到您得举报信息，我们会尽快审核

鸿蒙开发者社区

WOT技术大会

公众号矩阵

移动端

短视频免费课程课程排行直播课软考学堂

全部课程厂商认证 IT技术 24年11月软考 PMP项目管理免费题库

在线学习

文章资源问答课堂专栏直播

51CTO

鸿蒙开发者社区

51CTO技术栈

51CTO官微

51CTO学堂

51CTO博客

CTO训练营

鸿蒙开发者社区订阅号

51CTO软考

51CTO学堂APP

51CTO学堂企业版APP

鸿蒙开发者社区视频号

51CTO软考题库

51CTO博客

首页
关注
排行榜
精品课程
免费直播
软考题库

科目全、试题精、讲解专业，扫码免费刷

搜索历史清空

热门搜索

查看【】的结果
写文章
创作中心
登录注册