RDD : 弹性分布式数据集

五大特性

1.RDD是由一系列partition组成(block块对应partition),textFile底层调用的是MR读取hdfs上的数据的方法

默认一个block块对应一个split,split的大小和block大小一致,可以自己调整

2.函数作用在每一个partition(split)上

3.RDD之间有一系列的依赖关系(容错机制)

4.分区器作用在K,V格式的RDD上

5.RDD 提供一系列最佳的计算位置

问题一: 哪里体现了RDD的分布式和容错

1.partition分布在多台机器上

2.RDD之间有依赖关系,可以恢复数据,达到容错

问题二:哪里体现了弹性

partition的个数可以调整

问题三: 什么是K,V格式的RDD

RDD里的数据是一个二元组

问题四:为什么partition能提供一系列的最佳位置

1.partition对应的是一个个的block,hdfs的block

2.提供了最佳计算位置,能帮助spark达到移动计算而不是移动数据