RDD的五大特性

关注 wx5ba7ab4695f27

文章目录

文章目录
五大特性
问题一: 哪里体现了RDD的分布式和容错
问题二:哪里体现了弹性
问题三: 什么是K,V格式的RDD
问题四:为什么partition能提供一系列的最佳位置

RDD的五大特性

原创

wx5ba7ab4695f27 2021-06-05 23:41:52 ©著作权

文章标签 线程排序模式 文章分类 软件研发

©著作权归作者所有：来自51CTO博客作者wx5ba7ab4695f27的原创作品，请联系作者获取转载授权，否则将追究法律责任

文章目录

RDD : 弹性分布式数据集

五大特性

1.RDD是由一系列partition组成(block块对应partition),textFile底层调用的是MR读取hdfs上的数据的方法

默认一个block块对应一个split,split的大小和block大小一致,可以自己调整

2.函数作用在每一个partition(split)上

3.RDD之间有一系列的依赖关系(容错机制)

4.分区器作用在K,V格式的RDD上

5.RDD 提供一系列最佳的计算位置

问题一: 哪里体现了RDD的分布式和容错

1.partition分布在多台机器上

2.RDD之间有依赖关系,可以恢复数据,达到容错

问题二:哪里体现了弹性

partition的个数可以调整

问题三: 什么是K,V格式的RDD

RDD里的数据是一个二元组

问题四:为什么partition能提供一系列的最佳位置

1.partition对应的是一个个的block,hdfs的block

2.提供了最佳计算位置,能帮助spark达到移动计算而不是移动数据

赞
收藏
评论
分享
举报

上一篇：数据仓库的含义

下一篇：工厂模式(简单,工厂方法,抽象工厂)

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

举报文章

请选择举报类型

内容侵权涉嫌营销内容抄袭违法信息其他

具体原因

包含不真实信息涉及个人隐私

原文链接（必填）

补充说明

0/200

上传截图

格式支持JPEG/PNG/JPG，图片不超过1.9M

已经收到您得举报信息，我们会尽快审核

鸿蒙开发者社区

公众号矩阵

移动端

视频课免费课排行榜短视频直播课软考学堂

全部课程软考信创认证华为认证厂商认证 IT技术 PMP项目管理免费题库

在线学习

文章资源问答课堂专栏直播

51CTO

鸿蒙开发者社区

51CTO技术栈

51CTO官微

51CTO学堂

51CTO博客

CTO训练营

鸿蒙开发者社区订阅号

51CTO软考

51CTO学堂APP

51CTO学堂企业版APP

鸿蒙开发者社区视频号

51CTO软考题库

51CTO博客

首页
关注
排行榜
精品课程
免费资料
软考题库

科目全、试题精、讲解专业，扫码免费刷

搜索历史清空

热门搜索

查看【】的结果
写文章
创作中心
登录注册