Spark大数据技术第四章测验
1、什么根据Key进行分组,对分组内的元素进行操作。输出分区数和指定分区数相同,如果没有指定分区数,安装默认的并行级别,默认分区规则是哈希分区。
mapValues
flatMapValues
combineByKey
reduceByKey
2、Spark为包含键值对(key-value)类型的RDD提供了一些专有的操作。这些RDD被称为
PairRDD
KeyRDD
key-value RDD
Value RDD
3、Spark共享变量包括
累加器
广播变量
全局变量
局部变量
4、创建 RDD的方式,分别为
通过一个已存在的集合进行创建
外部 Datasets(数据集)
内部Datasets(数据集)
No answer text provided.
5、什么操作会在一个已存在的 RDD上创建一个新的 RDD,但实际的计算并没有执行,仅仅记录操作过程
transformations
actions
insert
update
6、Spark为包含键值对(key-value)类型的RDD提供了一些专有的操作,这些RDD被称为PairRDD。
True
False
7、对join操作有两种情况:如果两个RDD在进行join操作时,一个RDD的partition仅仅和另一个RDD中已知个数的Partition进行join,那么这种类型的join操作就是窄依赖。
True
False
8、什么操作对源RDD和参数RDD求并集后返回一个新的RDD。
distinct
union
intersection
pipe
9、什么是指一个父RDD的Partition会被多个子RDD的Partition所使用
宽依赖
窄依赖
全依赖
不依赖
10、RDD算子包括几种类型
1
2
3
4
11、什么即是RDD的分片函数
map
reduce
maven
Partitioner
12、什么会遍历分区中的所有元素,如果这是一个新的元素,函数会调用createCombiner创建那个key对应的累加器初始值。
mapValues
flatMapValues
combineByKey
reduceByKey
13、Spark的共享变量,分为累加器accumulator与广播变量 Broadcast。
True
False
14、什么在驱动程序中,以数组的形式返回数据集的所有元素。
reduce
collect
count
first
15、当前Spark中实现了两种类型的分片函数,分别为
HashPartitioner
RangePartitioner
ListPartitioner
ArrangePartitioner
16、什么操作返回RDD的元素个数
reduce
collect
count
first
17、窄依赖不仅包含一对一的窄依赖,还包含一对固定个数的窄依赖。
True
False
18、什么命令通过使用 shell 命令来将每个 RDD 的分区给 Pipe。
distinct
union
intersection
pipe
19、什么是指每个父RDD的一个Partition最多被子RDD的一个Partition所使用
宽依赖
窄依赖
全依赖
不依赖
20、窄依赖是指每个父RDD的一个Partition可被子RDD的多个Partition所使用。
True
False
21、Spark的全局共享变量,可以完成对信息进行聚合操作。
True
False
22、transform算子包括
map
filter
flatMap
mapPartitions
23、什么翻译为弹性分布式数据集,是Spark core中最核心的部分。
Spark Streaming
Spark SQL
MLlib
RDD
24、什么操作返回RDD的第一个元素
reduce
collect
count
first
25、transformations操作会在一个已存在的 RDD上创建一个新的 RDD,但实际的计算并没有执行,仅仅记录操作过程,所有的计算都发生在actions环节。
True
False