17、MapReduce的分区Partition介绍

关注一瓢一瓢的饮

文章目录

一、介绍
1、数据分区
2、Partition默认规则
3、分区使用
二、示例

17、MapReduce的分区Partition介绍

原创

一瓢一瓢的饮 2023-05-15 17:05:01 ©著作权

文章标签 mapreduce hadoop 大数据 bigdata 分布式 文章分类 Python 后端开发

©著作权归作者所有：来自51CTO博客作者一瓢一瓢的饮的原创作品，请联系作者获取转载授权，否则将追究法律责任

文章目录

Hadoop系列文章目录
一、介绍

1、数据分区
2、Partition默认规则
3、分区使用

二、示例

本文介绍MR的分区Partition。
本文分为2个部分，即介绍与示例。
前提依赖：hadoop环境可正常使用。

一、介绍

1、数据分区

当MapReduce中有多个reduce task执行的时候，此时map task的输出就会面临一个问题：究竟将自己的输出数据交给哪一个reducetask来处理？这就是数据分区（partition）

17、MapReduce的分区Partition介绍_hadoop

默认情况下，MapReduce是只有一个reducetask来进行数据的处理。这就使得不管输入的数据量多大，最终的结果都是输出到一个文件中
当改变reducetask个数的时候，作为maptask就会涉及到分区的问题，即：MapTask输出的结果如何分配给各个ReduceTask来处理
Map的数量由数据文件大小决定，即map的数量=数据文件大小（M）/128M。

2、Partition默认规则

MapReduce默认分区规则是HashPartitioner。分区的结果和map输出的key有关[（key.hashCode() & Integer.MAX_VALUE） % numReduceTasks]。
reducetask个数的改变导致了数据分区的产生，而不是有数据分区导致了reduce task个数改变。
数据分区的核心是分区规则。即如何分配数据给各个reducetask。默认的规则可以保证只要map阶段输出的key一样，数据就一定可以分区到同一个reducetask，但是不能保证数据平均分区。
reducetask个数的改变还会导致输出结果文件不再是一个整体，而是输出到多个文件中

3、分区使用

改变ReduceTask个数
在MapReduce中，通过Job提供的方法，可以修改reducetask的个数。默认情况下不设置，reducetask个数为1。

job.setNumReduceTasks(6)

设置完后，输出的文件个数

17、MapReduce的分区Partition介绍_hadoop_03

当数据分区数量>reduceTask 时，会出现异常错误
当数据分区数量=reduceTask 时，程序正常运行
当数据分区数量<reduceTask 时，程序正常运行，会出现输出文件大小为0的文件，为0的即是多出的reduceTask，即没有数据需要汇聚
通过修改不同reducetask个数值，得出输出结果文件的个数和reduce task个数是一种对等关系

二、示例

具体事例参考mapreduce的基本使用示例中的分区

赞
收藏
评论
分享
举报

上一篇：2、zookeeper基本操作及应用示例（shell、java api、应用场景示例）

下一篇：14、HDFS 透明加密KMS

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

举报文章

请选择举报类型

内容侵权涉嫌营销内容抄袭违法信息其他

具体原因

包含不真实信息涉及个人隐私

原文链接（必填）

补充说明

0/200

上传截图

格式支持JPEG/PNG/JPG，图片不超过1.9M

已经收到您得举报信息，我们会尽快审核

鸿蒙开发者社区

WOT技术大会

公众号矩阵

移动端

短视频免费课程课程排行直播课软考学堂

全部课程厂商认证 IT技术 24年11月软考 PMP项目管理免费题库

在线学习

文章资源问答课堂专栏直播

51CTO

鸿蒙开发者社区

51CTO技术栈

51CTO官微

51CTO学堂

51CTO博客

CTO训练营

鸿蒙开发者社区订阅号

51CTO软考

51CTO学堂APP

51CTO学堂企业版APP

鸿蒙开发者社区视频号

51CTO软考题库

51CTO博客

首页
关注
排行榜
精品课程
免费资料
软考题库

科目全、试题精、讲解专业，扫码免费刷

搜索历史清空

热门搜索

查看【】的结果
写文章
创作中心
登录注册