大数据批量处理框架大数据批处理计算

关注网络小墨舞风

大数据批量处理框架大数据批处理计算

转载

网络小墨舞风 2024-02-23 07:34:15

文章标签 大数据批量处理框架大数据 mapreduce 键值对数据 文章分类 深度学习人工智能

大数据批量处理框架大数据批处理计算_大数据

一些介绍

分布式计算模型

批处理计算：（大容量静态数据集）

有界、持久、大量
理需要访问全套记录，不适合对处理时间要求较高的场合

偷老师的图：

大数据批量处理框架大数据批处理计算_大数据_02

大数据批量处理框架大数据批处理计算_大数据_03

常见计算模式

主要点在于分开mapper和reducer，然后确定每个<key,value>键值对的意义

求和模式(Summarization Pattern)
单词统计：

map阶段：输入<key,value>是<网页ID,网页内容>，输出<key,value>是<单词,出现次数>
reduce阶段：累加相同key值的，输出<单词,出现次数>
补充：map和reduce间是shuffle阶段，在shuffle阶段，可以先对每一个map做combiner（合并相同的key对应的value，局部reducer），然后做partitioner，通过hash等方式分配中间结果数据给reducer，实现负载均衡

过滤模式(Filtering Pattern)

简单过滤：Map-Only
TOP K：Mapper首先统计出数据块内所有记录中某个字段满足Top K条件的记录子集，得到局部Top K记录。然后通过Reducer对这些局部Top K记录进一步筛选，获得最终的全局最大的K条记录。

数据组织模式(Data Organization Pattern)

数据分片
全局排序：“排序是MapReduce的天然特性”（a每个map输出结果有序；b每个reduce输入有序）但当多个reducer时，需要通过Partition策略，保证不同Reducer处理一个范围区间的记录。

实例

文本分析、页面点击统计、专利引用统计

特点

优点：

极强的可扩展性
很好的容错性，
简单，用户只需完成Map和Reduce
函数即可完成大规模数据的并行处理

缺点：

不适合对时效性要求较高的应用场景（Map和Reduce任务启动时间较长）
不适合迭代运算类（在多处的磁盘读/写及网络传输过程）

K-Means算法MapReduce化

mapper处理根据簇中心重新分簇，输出键值对为<cluster assigned to , 数据点自身>；
combine阶段，键值对<cluster id ，-【 # of data points of this cluster， mean】>；
reducer处理根据分簇情况重新计算簇中心，键值对<该cluster 的id，该cluster的数据点的均值及对应于该均值的数据点的个数>

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

赞
收藏
评论
分享
举报

上一篇：适用云服务的客户应该注意什么简述云服务的日常应用

下一篇：opencv mat怎么输出jpg opencv 保存mat

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

举报文章

请选择举报类型

内容侵权涉嫌营销内容抄袭违法信息其他

具体原因

包含不真实信息涉及个人隐私

原文链接（必填）

补充说明

0/200

上传截图

格式支持JPEG/PNG/JPG，图片不超过1.9M

已经收到您得举报信息，我们会尽快审核

鸿蒙开发者社区

公众号矩阵

移动端

视频课免费课排行榜短视频直播课软考学堂

全部课程软考信创认证华为认证厂商认证 IT技术 PMP项目管理免费题库

在线学习

文章资源问答课堂专栏直播

51CTO

鸿蒙开发者社区

51CTO技术栈

51CTO官微

51CTO学堂

51CTO博客

CTO训练营

鸿蒙开发者社区订阅号

51CTO软考

51CTO学堂APP

51CTO学堂企业版APP

鸿蒙开发者社区视频号

51CTO软考题库

51CTO博客

首页
关注
排行榜
精品课程
免费资料
软考题库

科目全、试题精、讲解专业，扫码免费刷

搜索历史清空

热门搜索

查看【】的结果
写文章
创作中心
登录注册