Spark大数据技术第四章测验

 1、什么根据Key进行分组,对分组内的元素进行操作。输出分区数和指定分区数相同,如果没有指定分区数,安装默认的并行级别,默认分区规则是哈希分区。

mapValues

flatMapValues

combineByKey

reduceByKey

 2、Spark为包含键值对(key-value)类型的RDD提供了一些专有的操作。这些RDD被称为

PairRDD

KeyRDD

key-value RDD

Value RDD

 3、Spark共享变量包括

累加器

广播变量

全局变量

局部变量

 4、创建 RDD的方式,分别为

通过一个已存在的集合进行创建

外部 Datasets(数据集)

内部Datasets(数据集)

No answer text provided.

 5、什么操作会在一个已存在的 RDD上创建一个新的 RDD,但实际的计算并没有执行,仅仅记录操作过程

transformations

actions

insert

update

 6、Spark为包含键值对(key-value)类型的RDD提供了一些专有的操作,这些RDD被称为PairRDD。

True

False

 7、对join操作有两种情况:如果两个RDD在进行join操作时,一个RDD的partition仅仅和另一个RDD中已知个数的Partition进行join,那么这种类型的join操作就是窄依赖。

True

False

 8、什么操作对源RDD和参数RDD求并集后返回一个新的RDD。

distinct

union

intersection

pipe

 9、什么是指一个父RDD的Partition会被多个子RDD的Partition所使用

宽依赖

窄依赖

全依赖

不依赖

 10、RDD算子包括几种类型

1

2

3

4

 11、什么即是RDD的分片函数

map

reduce

maven

Partitioner

 12、什么会遍历分区中的所有元素,如果这是一个新的元素,函数会调用createCombiner创建那个key对应的累加器初始值。

mapValues

flatMapValues

combineByKey

reduceByKey

 13、Spark的共享变量,分为累加器accumulator与广播变量 Broadcast。

True

False

 14、什么在驱动程序中,以数组的形式返回数据集的所有元素。

reduce

collect

count

first

 15、当前Spark中实现了两种类型的分片函数,分别为

HashPartitioner

RangePartitioner

ListPartitioner

ArrangePartitioner

 16、什么操作返回RDD的元素个数

reduce

collect

count

first

 17、窄依赖不仅包含一对一的窄依赖,还包含一对固定个数的窄依赖。

True

False

 18、什么命令通过使用 shell 命令来将每个 RDD 的分区给 Pipe。

distinct

union

intersection

pipe

 19、什么是指每个父RDD的一个Partition最多被子RDD的一个Partition所使用

宽依赖

窄依赖

全依赖

不依赖

 20、窄依赖是指每个父RDD的一个Partition可被子RDD的多个Partition所使用。

True

False

 21、Spark的全局共享变量,可以完成对信息进行聚合操作。

True

False

 22、transform算子包括

map

filter

flatMap

mapPartitions

 23、什么翻译为弹性分布式数据集,是Spark core中最核心的部分。

Spark Streaming

Spark SQL

MLlib

RDD

 24、什么操作返回RDD的第一个元素

reduce

collect

count

first

 25、transformations操作会在一个已存在的 RDD上创建一个新的 RDD,但实际的计算并没有执行,仅仅记录操作过程,所有的计算都发生在actions环节。

True

False