RDD基础_51CTO博客

06 RDD基础

学生课程分数案例总共有多少学生？map(), distinct(), count() 开设了多少门课程？每个学生选修了多少门课？map(), countByKey() 每门课程有多少个学生选？map(), countByValue() Tom选修了几门课？每门课多少分？filter(), map ...

06 RDD基础

转载

mob604756f61e6c

2021-04-23 17:23:00

90阅读

2评论

Spark RDD编程基础

1.准备文本文件从文件创建RDD lines=sc.textFile()筛选出含某个单词的行 lines.filter()lambda 参数：条件表达式 2.生成单词的列表从列表创建RDD words=sc.parallelize()筛选出长度大于2 的单词 words.filter()

Spark RDD

转载

mob604756e46771

2021-03-28 08:42:05

236阅读

2评论

PySpark｜RDD编程基础

RDD（弹性分布式数据集）RDD是Spark中最基本的数据抽象，其实就是分布式的元素集合。RDD有三

python

spark

大数据

数据集

数据

原创

二哥不像程序员

2023-02-17 09:16:59

241阅读

本文介绍了Apache Spark。它讨论了什么是Spark，如何获取Spark以及如何运行Spark。Apache Spark是一个用于大规模数据处理的统一分析引擎。它提供了Java、Scala、Python和R的高级API，以及支持通用执行图的优化引擎。它还支持一组丰富的更高级别的工具，包括用于SQL和结构化数据处理的Spark SQL、用于pandas工作负载的pandas API on Spark、用于机器学习的MLlib、用于图处理的GraphX以及用于增量计算和流处理的Structured Streaming。您可以从项目网站下载Spark。下载包适用于少数流行的Hadoop版本。您还可以下载“Hadoop free”二进制文件，并通过增强Spark的类路径来运行Spark与任何Hadoop版本。Scala和Java用户可以使用其Maven坐标将Spark包含在他们的项目中，而Python用户可以从PyPI安装Spark。

spark

数据集

数据

原创

wx6711c8c8396bb

2024-10-18 10:39:31

58阅读

[Spark基础]-- RDD解释

x

spark

apache

scala

转载

high2011

2022-11-03 14:31:27

57阅读

spark基础-rdd特性

1.RDD是spark提供的核心抽象，全称：Resillient Distributed Dataset,即弹性分布式数据集。2.RDD在抽象上来说是一种元素集合，包含了数据。它是被分区的，氛围多个分区，每个分区分布在集群中的不同节点上，从而让RDD中的数据可以并行操作（分布式数据集）3.RDD通常通过Hadoop上的文件来创建。有时也可以通过应用程序中的集合赖床见。4.RDD最重要的特性就是提供

rdd

原创

xiao酒窝

2019-09-21 22:15:02

2237阅读

spark基础--rdd的生成

使用parallelize创建RDD 也可以使用makeRDD来创建RDD。通过查看源码可以发现，makeRDD执行的时候，也是在调用parallelize函数，二者无区别。通过 .textFile 可以通过文件读取项目路径和 hdfs 文件路径*makeRDD 和 parallelize 第二个参数为处理的并行度数量不给定时，默认值为通过conf.getInt("spark.default

rdd

spark

原创

xiao酒窝

2019-09-21 22:13:15

1102阅读

03 Spark RDD编程基础

Spark RDD

转载

mob604756e54876

2021-03-27 10:43:45

297阅读

2评论

03 Spark RDD编程基础

1.准备文本文件从文件创建RDD lines=sc.textFile()筛选出含某个单词的行 lines.filter() 2.生成单词的列表从列表创建RDD words=sc.parallelize()筛选出长度大于2 的单词 words.filter()

Spark RDD

转载

mob604756e54876

2021-03-27 10:12:19

121阅读

2评论

spark Pair RDD 基础操作

下面是Pair RDD的API讲解下面有两段示例代码，注意下面示例代码中返回值的数据类型

键值

数据

示例代码

原创

我和你并没有不同

2022-06-01 05:14:31

115阅读

pyspark rdd 基础统计操作

# PySpark RDD基础统计操作在PySpark中，RDD（弹性分布式数据集）是一种基本的数据结构，可以进行各种操作来进行数据分析和处理。在数据分析中，基础统计操作是非常重要的，可以帮助我们了解数据的分布情况和特征。本文将介绍如何使用PySpark进行基础的统计操作，包括计数、求和、平均值等。 ## PySpark RDD基础统计操作示例首先，我们需要创建一个SparkSessio

最小值

spark

数据

原创

mob64ca12f09e0c

2024-06-26 06:15:19

50阅读

Spark Core源码分析: RDD基础

RDD RDD初始参数：上下文和一组依赖Java代码 abstr...

Spark

Java

子类

Dependency

原创

wbj0110

2023-08-03 15:41:44

85阅读

Spark RDD编程基础（Scala版）

RDD :弹性分布式数据集（分布式的元素集合）Spark中，对数据的所有操作不外乎创建RDD,转化已有的RDD以及调用RDD操作进行求值，Spark会自动将RDD中的数据分发到集群上，并将操作并行化执行。1、创建RDDSpark有两种创建RDD的方式，一种是读取外部数据集，一种是在驱动器中对一个集合进行并行化。最简单的创建RDD的方法就是讲程序中已有的一个集合传给SparkCont...

scala

RDD编程

Spark

持久化

数据

原创

二哥不像程序员

2023-02-21 16:28:35

131阅读

Spark Core源代码分析: RDD基础

RDD RDD初始參数：上下文和一组依赖 abstract class RDD[T: ClassTag]( @transient private var sc: SparkContext, @transient private var deps: Seq[Dependency[_]] ) exten

spark

hadoop

子类

序列化

父类

转载

mob604756eca2df

2017-08-04 12:02:00

71阅读

2评论

spark rdd 随机rdd

一、Spark包括什么spark的核心是Spark Core，其中上面的Spark Sql对接的是Hive等结构化查询，Spark Streaming是对接的流式计算，后面的那两个也是主要用在科学任务中，但是他们的基础都是spark core，而Spark core的核心就是RDD操作，RDD的操作重要的就是算子，也就是说，掌握了算子基本上就掌握了spark的基础。二、RDD1、是什么？&nbsp

spark rdd 随机rdd

spark基础解析

数据

缓存

spark

转载

人类新新

6月前

35阅读

Spark面试常见问题(一)--RDD基础

1 RDD基础知识 1.1 Spark的RDD五大特性 1.1.1 A list of partitions RDD是一个由多个partition（某个节点里的某一片连续的数据）组成的的List；将数据加载为RDD时，一般一个hdfs里的block会加载为一个partition。对于RDD来说，每

数据

spark

数据集

依赖关系

hdfs

转载

mob604756f99da6

2021-01-23 18:24:00

143阅读

2评论

[Spark基础]-- spark RDD操作算子详解（汇总）

一、aggregateByKey [Pair] 像聚合函数一样工作，但聚合应用于具有相同键的值。也不像聚

spark

scala

聚合函数

.net

原创

high2011

2022-11-03 17:11:55

139阅读

spark rdd拆分多个rdd 一个rdd拆分成多个rdd

只需将具体的应用逻辑表达为一系列转换处理，不同RDD之间的转换操作形成依赖关系，可以实现管道化，从而避免了中间结果的存储，大大降低了数据复制、磁盘IO和序列化开销。　　一个RDD就是一个分布式对象集合，本质上是一个只读的分区记录集合，每个RDD可以分成多个分区，每个分区就是一个数据集片段，并且一个RDD的不同分区可以被保存到集群中不同的节点上，从而可以在集群中的不同节点上进行并行计算。　　RDD提

spark rdd拆分多个rdd

数据集

依赖关系

数据

转载

精灵仙女

2023-12-14 10:15:45

0阅读

Spark核心RDD、什么是RDD、RDD的属性、创建RDD、RDD的依赖以及缓存、

1：什么是Spark的RDD？？？ RDD（Resilient Distributed Dataset）叫做弹性分布式数据集，是Spark中最基本的数据抽象，它代表一个不可变、可分区、里面的元素可并行计算的集合。RDD具有数据流模型的特点：自动容错、位置感知性调度和可伸缩性。RDD允许用户在执行多个查询时显式地将工作集缓存在内存中，后续的查询能够重用工作集，这极大地提升了查询速度。 2：RDD

spark

缓存

数据集

数据

依赖关系

转载

mob604756fe27f4

2018-02-23 18:25:00

159阅读

SparkCore之RDD依赖关系_RDD缓存_RDD CheckPoint

一 RDD依赖关系1 LineageRDD只支持粗粒度转换，即在大量记录上执行的单个操作。将创建RDD的一系列Lineage

scala

spark

apache

原创

年轻即出发

2022-11-11 10:37:09

77阅读

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯

51CTO博客

RDD基础

06 RDD基础

Spark RDD编程基础

PySpark｜RDD编程基础

Spark基础和RDD

[Spark基础]-- RDD解释

spark基础-rdd特性

spark基础--rdd的生成

03 Spark RDD编程基础

03 Spark RDD编程基础

spark Pair RDD 基础操作

pyspark rdd 基础统计操作

Spark Core源码分析: RDD基础

Spark RDD编程基础（Scala版）

Spark Core源代码分析: RDD基础

spark rdd 随机rdd

Spark面试常见问题(一)--RDD基础

[Spark基础]-- spark RDD操作算子详解（汇总）

spark rdd拆分多个rdd 一个rdd拆分成多个rdd

Spark核心RDD、什么是RDD、RDD的属性、创建RDD、RDD的依赖以及缓存、

SparkCore之RDD依赖关系_RDD缓存_RDD CheckPoint

spark rdd拆分多个rdd 一个rdd拆分成多个rdd

RDD的特性 ---- RDD的缓存

spark rdd懒加载 sparkstreaming rdd

spark RDD扩容 spark rdd union

5.2 RDD编程---键值对RDD

RDD的优点 Spark rdd作用

[Spark基础]-- spark rdd collect操作官方解释

【Spark 深入学习 07】RDD编程之旅基础篇03-键值对RDD

Spark RDD使用详解--RDD原理

RDD的特性 ---- RDD的checkpoint