spark rdd 返回string spark rdd dag

转载

mob64ca13f48509 2024-06-11 16:53:40

文章标签 spark rdd 返回string 大数据缓存依赖关系迭代 文章分类 Spark 大数据

Spark最基本、最根本的数据抽象

RDD基于内存，提高了迭代式、交互式操作的性能

RDD是只读的，只能通过其他RDD批量操作来创建，提高容错性另外RDD还具有位置感知性调度和可伸缩性

RDD只支持粗粒度转换，记录Lineage，用于恢复丢失的分区，从物理存储的数据计算出相应的RDD分区

RDD的5个主要属性：

1.一组分片，默认的分片个数等于core数。BlockManager进行分配。

2.一个compute计算分区函数，对迭代器进行复合，以分片为单位

3.RDD之间的依赖关系，使数据丢失时，只对部分分区数据重新计算

4.一个partitioner分片函数，分为基于Hash哈希和Range范围的，只有key-value的RDD才有

5.一个列表，存储partition的优先位置

两种方式创建RDD：

已存在的集合创建
外部数据集创建

RDD的转换：

RDD的动作：

RDD的缓存：

也称为持久化，实现了重用，是迭代式算法和交互式查询的关键

通过cache（）方法标记为缓存

RDD的检查点：

避免缓存丢失过多带来的计算开销

调用org.apache.spark.rdd.RDD#checkpoint()指定检查点

RDD的依赖关系：

窄依赖和宽依赖

窄依赖：一个parent RDD的partition最多被子RDD的一个partition依赖

宽依赖：多个子RDD的partition依赖同一个parent RDD的partition

窄依赖包括的函数：

map、filter、union，仅仅和已知的partition进行join，都是窄依赖，不会引入昂贵的shuffle，partition互相独立，计算任务可以并行执行

宽依赖包括的函数：

groupByKey、需要parent RDD的所有partition进行join，都属于宽依赖，需要shuffle过程

支持两种shuffle manager，hash和sort

DAG生成：

RDD的依赖关系，生成了逻辑上的DAG

Spark根据宽依赖将DAG划分成不同的stage

RDD的计算：

一系列转换后，最后一个RDD触发动作，生成Job，划分到Task中，提交集群上的计算节点，最终由Executor执行计算

task分为ShuffleMapTask和ResultTask，其中为结果生成的ResultTask被发送到Executor中

缓存的处理：

cacheManager，RDD可更简单从Storage读写。

通过getOrCompute判断是否计算

checkpoint处理：

没有缓存的情况下，判断是否有checkpoint，没有就开始计算

RDD的容错机制：

基于Lineage

stage之间的依赖关系可以认为就是Lineage

Tachyon 两个维度容错，元数据容错（元数据保存到Image文件中，并保存变化到EditLog中），另一个就是Lineage容错机制

最后强调：RDD不需要物化！！

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

上一篇：iOS lauanchScreen的使用 applescreen

下一篇：Linux centos 网卡不稳定 linux网卡状态

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯

spark rdd 返回string spark rdd dag

spark rdd 返回string spark rdd dag

51CTO博客