SparkCore之RDD的创建

在Spark中创建RDD的创建方式可以分为三种：从集合中创建RDD；从外部存储创建RDD；从其他RDD创建。1 从集合

SparkCore之RDD的创建

spark

scala

hdfs

原创

年轻即出发

2022-11-11 10:35:36

27阅读

RDD特点RDD表示只读的分区的数据集，对RDD进行改动，只能通过RDD的转换操作，由一个RDD得到一个新的RDD，新的RDD包含了从其他RDD衍生所必需的信息。RDDs之间存在依赖，RDD的执行是按照血缘关系延时计算的。如果血缘关系较长，可以通过持久化RDD来切断血缘关系。分区RDD逻辑上是分区的，每个分区的数据是抽象存在的，计算的时候会通过一个compute函数得到每个分区的数据。...

spark

大数据

数据

缓存

迭代

原创

大数据面试宝典

2021-12-28 18:06:28

93阅读

SparkCore之RDD缓存

RDD通过persist方法或cache方法可以将前面的计算结果缓存，默认情况下 persist() 会把数据以序列化的形式缓存在 JVM 的堆空间中。但是并不是这两个方法被调用时立即缓存，而是触发后面的action时，该RDD将会被缓存在计算节点的内存中，并供后面重用。通过查看源码发现cache最终也是调用了persist方法，默认的存储级别都是仅在内存存储一份，Spark的存储级别...

spark

大数据

缓存

scala

数据

原创

大数据面试宝典

2021-12-28 18:06:28

18阅读

SparkCore之RDD依赖

1 LineageRDD只支持粗粒度转换，即在大量记录上执行的单个操作。将创建RDD的一系列Lineage（血统）记录下来，以便恢复丢失的分区。RDD的Lineage会记录RDD的元数据信息和转换行为，当该RDD的部分分区数据丢失时，它可以根据这些信息来重新运算和恢复丢失的数据分区。（1）读取一个HDFS文件并将其中内容映射成一个个元组scala> val wordAndOne = s...

spark

大数据

scala

apache

SparkCore

原创

大数据面试宝典

2021-12-28 18:06:28

37阅读

SparkCore之RDD缓存

RDD通过persist方法或cache方法可以将前面的计算结果缓存，默认情况下 persist() 会把数据以序列化的形式缓存在 JVM 的堆空间中。但是并不是这两个方法被调用时立即缓存，而是触发后面的action时，该RDD将会被缓存在计算节点的内存中，并供后面重用。通过查看源码发现cache最终也是调用了persist方法，默认的存储级别都是仅在内存存储一份，Spark的存储级别...

spark

大数据

缓存

scala

数据

原创

大数据面试宝典

2022-02-16 16:24:54

51阅读

SparkCore之RDD的特点

RDD特点RDD表示只读的分区的数据集，对RDD进行改动，只能通过RDD的转换操作，由一个RDD得到一个新的RDD，新的RDD包含了从其他RDD衍生所必需的信息。RDDs之间存在依赖，RDD的执行是按照血缘关系延时计算的。如果血缘关系较长，可以通过持久化RDD来切断血缘关系。分区RDD逻辑上是分区的，每个分区的数据是抽象存在的，计算的时候会通过一个compute函数得到每个分区的数据。...

spark

大数据

数据

缓存

迭代

原创

大数据面试宝典

2022-02-16 16:24:55

20阅读

SparkCore之RDD概述

1 什么是RDDRDD（Resilient Distributed Dataset）叫做分布式数据集，是Spark中最基本的数据抽象。代码中是一个抽象类，它代表一个不可变、

SparkCore之RDD概述

数据

缓存

文件系统

原创

年轻即出发

2022-11-11 10:42:45

67阅读

SparkCore之RDD依赖

1 LineageRDD只支持粗粒度转换，即在大量记录上执行的单个操作。将创建RDD的一系列Lineage（血统）记录下来，以便恢复丢失的分区。RDD的Lineage会记录RDD的元数据信息和转换行为，当该RDD的部分分区数据丢失时，它可以根据这些信息来重新运算和恢复丢失的数据分区。（1）读取一个HDFS文件并将其中内容映射成一个个元组scala> val wordAndOne = s...

spark

大数据

scala

apache

其他

原创

大数据面试宝典

2022-02-16 16:24:55

41阅读

sparkCore之什么是RDD

什么是RDD●为什么要有RDD?在许多迭代式算法(比如机器学习、图算法等)和交互式数据挖掘中，不同计算阶段之间会重用中间结果，即一个阶段的输出结果会作为下一个阶段的输入。但是，之前的MapReduce框架采用非循环式的数据流模型，把中间结果写入到HDFS中，带来了大量的数据复制、磁盘IO和序列化开销。且这些框架只能支持一些特定的计算模式(map/reduce)，并没有提供一种...

spark

大数据

数据

数据集

SparkCore

原创

大数据面试宝典

2021-12-28 18:06:29

46阅读

SparkCore之RDD编程进阶

1 累加器累加器用来对信息进行聚合，通常在向 Spark传递函数时，比如使用 map() 函数或者用 filter() 传条件时，可以使入的日志...

SparkCore之RDD编程进阶

spark

apache

java

原创

年轻即出发

2022-11-11 10:37:50

39阅读

sparkCore之什么是RDD

什么是RDD●为什么要有RDD?在许多迭代式算法(比如机器学习、图算法等)和交互式数据挖掘中，不同计算阶段之间会重用中间结果，即一个阶段的输出结果会作为下一个阶段的输入。但是，之前的MapReduce框架采用非循环式的数据流模型，把中间结果写入到HDFS中，带来了大量的数据复制、磁盘IO和序列化开销。且这些框架只能支持一些特定的计算模式(map/reduce)，并没有提供一种...

spark

大数据

数据

数据集

其他

原创

大数据面试宝典

2022-02-16 16:24:58

51阅读

SparkCore之RDD变成模型

在Spark中，RDD被表示为对象，通过对象上的方法调用来对RDD进行转换。经过一系列的transformations定义RDD之

SparkCore之RDD变成模型

spark

方法调用

应用程序

原创

年轻即出发

2022-11-11 10:42:56

46阅读

SparkCore之RDD依赖关系_RDD缓存_RDD CheckPoint

一 RDD依赖关系1 LineageRDD只支持粗粒度转换，即在大量记录上执行的单个操作。将创建RDD的一系列Lineage

scala

spark

apache

原创

年轻即出发

2022-11-11 10:37:09

55阅读

SparkCore之RDD中的函数传递

在实际开发中我们往往需要自己定义一些对于RDD的操作，那么此时需要主要的是，初始化工作是在Driver端进行的，而实际运行程序是在Executor端进行的，这就涉及到了跨进程通信，是需要序列化的。下面我们看几个例子：1 传递一个方法1．创建一个类class Search(query:String){//过滤出包含字符串的数据 def isMatch(s: String)...

SparkCore之RDD中的函数传递

spark

scala

apache

原创

年轻即出发

2022-11-11 10:36:45

31阅读

SparkCore之 RDD的转换（面试开发重点）

RDD的转换（面试开发重点）RDD整体上分为Value类型和Key-Value类型1 Value类型1.1 map(func)案例1. 作用：返回一个新

RDD的转换（面试开发重点）

scala

spark

apache

原创

年轻即出发

2022-11-11 10:36:15

57阅读

SparkCore之键值对RDD数据分区器

Spark目前支持Hash分区和Range分区，用户也可以自定义分区，Hash

spark

apache

scala

原创

年轻即出发

2022-11-11 10:37:24

22阅读

SparkCore之键值对RDD数据分区器

Spark目前支持Hash分区和Range分区，用户也可以自定义分区，Hash分区为当前的默认分区，Spark中分区器直接决定了RDD中分区的个数、RDD中每条数据经过Shuffle过程属于哪个分区和Reduce的个数注意：(1)只有Key-Value类型的RDD才有分区器的，非Key-Value类型的RDD分区器的值是None(2)每个RDD的分区ID范围：0~numPartitions...

spark

大数据

scala

apache

SparkCore

原创

大数据面试宝典

2021-12-28 18:06:28

66阅读

SparkCore之键值对RDD数据分区器

Spark目前支持Hash分区和Range分区，用户也可以自定义分区，Hash分区为当前的默认分区，Spark中分区器直接决定了RDD中分区的个数、RDD中每条数据经过Shuffle过程属于哪个分区和Reduce的个数注意：(1)只有Key-Value类型的RDD才有分区器的，非Key-Value类型的RDD分区器的值是None(2)每个RDD的分区ID范围：0~numPartitions...

spark

大数据

scala

apache

其他

原创

大数据面试宝典

2022-02-16 15:56:14

52阅读

SparkCore之RDD广播变量与累加器

累加器累加器用来对信息进行聚合，通常在向 Spark传递函数时，比如使用 map() 函数或者用 filter() 传条件时，可以使用驱动器程序中定义的变量，但是集群中运行的每个任务都会得到这些变量的一份新的副本，更新这些副本的值也不会影响驱动器中的对应变量。如果我们想实现所有分片处理时更新共享变量的功能，那么累加器可以实现我们想要的效果。系统累加器针对一个输入的日志文件，如果我们想计算文件...

spark

大数据

java

apache

SparkCore

原创

大数据面试宝典

2021-12-28 18:06:26

133阅读

SparkCore之RDD广播变量与累加器

累加器累加器用来对信息进行聚合，通常在向 Spark传递函数时，比如使用 map() 函数或者用 filter() 传条件时，可以使用驱动器程序中定义的变量，但是集群中运行的每个任务都会得到这些变量的一份新的副本，更新这些副本的值也不会影响驱动器中的对应变量。如果我们想实现所有分片处理时更新共享变量的功能，那么累加器可以实现我们想要的效果。系统累加器针对一个输入的日志文件，如果我们想计算文件...

spark

大数据

java

apache

其他

原创

大数据面试宝典

2022-02-16 16:24:57

111阅读

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯

51CTO博客

SparkCore之RDD的创建