大数据rdd_51CTO博客

大数据Spark RDD 函数

目录1 函数分类2 Transformation函数3 Action函数4 重要函数4.1 基本函数4.2 分区操作函数4.3 重分区函数4.4 聚合函数4.4.1 集合中聚合函数4.4.2 RDD 中聚合函数4.4.3 PairRDDFunctions 聚合函数4.4.4 面试题4.5 关联函数

spark

数据

聚合函数

apache

scala

原创

程序员老陆

2021-08-23 21:20:10

520阅读

大数据之Spark RDD

Spark的算子分为两类：一类叫做Transformation(转换)，延迟加载，它会记录元数据信息，当计算任务触发Action，才

高斯赛德尔迭代法

spark

d3

java

原创

大数据同盟会

2022-01-12 15:42:05

204阅读

Spark的算子分为两类：一类叫做Transformation(转换)，延迟加载，它会记录元数据信息，当计算任务触发Action，才会真正开始计算；一类叫做Action(动作)；一个算子会产生多个RDDRDD（Resilient Distributed Dataset）叫做分布式数据集，是Spark中最基本的数据抽象，它代表一个不可变、可分区、里面的元素可并行计算的集合。一、RDD创建方式方式一

高斯赛德尔迭代法

spark

d3

java

原创

大数据同盟会

2022-04-22 10:07:49

131阅读

大数据Spark RDD介绍

目录1 RDD 定义2 RDD 特性3 WordCount中RDD4 RDD 创建4.1 并行化集合4.2 外部存储系统4.3 小文件读取4.4 RDD 分区数目 1 RDD 定义对于大量的数据，Spark 在内部保存计算的时候，都是用一种叫做弹性分布式数据集（ResilientDistributed Datasets，RDD）的数据

spark

数据

hdfs

数据集

scala

原创

程序员老陆

2021-08-21 00:01:44

469阅读

大数据随记 —— RDD 的创建

大数据系列文章：? 目录 ? 文章目录一、从集合（内存）中创建 RDD二、从加载文件（外存）创建 RDD三、从 RDD 转换成新的 RDD 一、从

spark

数据集

文件创建

原创

繁依Fanyi

3月前

105阅读

大数据随记 —— RDD 的创建

Spark 会将集合中的数据拷贝到集群上去，形成一个分布式的数据集合，也就是形成一个 RDD。也就是说，集合中的部分数据会到

大数据

hadoop

spark

数据集

文件创建

原创

繁依Fanyi

2022-12-28 11:38:53

130阅读

大数据量redis和rocksdb对比 rdd 大数据

什么是Spark？关于Spark具体的定义，大家可以去阅读官网或者百度关于Spark的词条，在此不再赘述。从一个野生程序猿的角度去理解，作为大数据时代的一个准王者，Spark是一款主流的高性能分布式计算大数据框架之一，和MapReduce，Hive，Flink等其他大数据框架一起支撑了大数据处理方案的一片天空。笔者所在的公司，集群里面有数千台高配机器搭载了Spark(还有Hive和Flink)，用

大数据量redis和rocksdb对比

spark

apache

Python

转载

云端筑梦工匠

2023-12-15 15:02:47

22阅读

图解大数据 | 基于Spark RDD的大数据处理分析

RDD(弹性分布式数据集合)是Spark的基本数据结构，Spark中的所有数据都是通过RDD的形式进行组织。本文讲解RDD的属性、创建方式、广播与累加器等重要知识点，并图解RDD高频算子。

spark

数据

大数据

rdd

bigdata

原创

ShowMeAI

2022-03-12 12:30:35

8433阅读

1点赞

大数据Spark RDD运行设计底层原理

一、RDD设计背景在实际应用中，存在许多迭代式算法（比如机器学习、图算法等）和交互式数据挖掘工具，这些应用场景的共同之处是，不同计算阶段之间会重用中间结果，即一个阶段的输出结果会作为下一个阶段的输入。但是，目前的MapReduce框架都是把中间结果写入到HDFS中，带来了大量的数据复制、磁盘IO和序列化开销。虽然，类似Pregel等图计算框架也是将结果保存在内存当中，但是，这些框架只能支持一些特定

java

原创

mb5fdb128f2dba9

2021-03-07 20:17:52

1812阅读

大数据随记 —— Spark Core 与 RDD 简介

弹性分布式数据集（RDD，Resilient Distributed Datasets），它具备像 MapReduce 等数据流模型的容错特性，能在并行计算中高效地来创建。...

spark

大数据

scala

数据

bc

原创

繁依Fanyi

2022-12-28 11:38:49

225阅读

大数据（2）作业二：Spark RDD编程

1.准备文本文件，从文件创建RDD lines=sc.textFile()，筛选出含某个单词的行 lines.filter()，lambda 参数：条件表达式 2.生成单词的列表，从列表创建RDD words=sc.parallelize()，筛选出长度大于2 的单词 words.filter() ...

Spark RDD编程

转载

mb607022e25a607

2021-04-10 16:54:26

510阅读

2评论

大数据随记 —— Spark Core 与 RDD 简介

大数据系列文章：? 目录 ? 文章目录一、Spark Core二、RDD1. RDD 简介2. RDD 的特性（核心属性）Ⅰ）一系列的分区信息

数据

bc

Core

原创

繁依Fanyi

3月前

56阅读

文章目录

spark

apache

json

原创

wx5ba7ab4695f27

2022-02-10 10:32:40

302阅读

spark大数据分析:spark core(2) RDD数据读取

文章目录

spark

原创

wx5ba7ab4695f27

2021-05-31 17:19:04

365阅读

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯

51CTO博客

大数据rdd

大数据Spark RDD 函数

大数据之Spark RDD

大数据之Spark RDD

大数据Spark RDD介绍

大数据随记 —— RDD 的创建

大数据随记 —— RDD 的创建

大数据量redis和rocksdb对比 rdd 大数据

图解大数据 | 基于Spark RDD的大数据处理分析

大数据Spark RDD运行设计底层原理

大数据随记 —— Spark Core 与 RDD 简介

大数据（2）作业二：Spark RDD编程

大数据随记 —— Spark Core 与 RDD 简介

大数据Spark RDD持久化和Checkpoint

大数据-84 Spark 集群 RDD创建 RDD-Transformation操作算子详解

大数据-89 Spark 集群 RDD 编程-高阶编写代码、RDD依赖关系、RDD持久化/缓存

大数据-85 Spark 集群 RDD创建 RDD-Action Key-Value RDD详解 RDD的文件输入输出

大数据-83 Spark 集群 RDD编程简介 RDD特点 Spark编程模型介绍

大数据-91 Spark 集群 RDD 编程-高阶 RDD广播变量 RDD累加器 Spark程序优化

spark大数据分析:spark core(2) RDD数据读取

spark大数据分析:spark core(2) RDD数据读取

大数据第十四周——Spark编程(RDD编程)

spark大数据分析:spark core(6)缓存RDD

spark大数据分析:spark core(1) RDD概念

大数据智能综合训练编程题（Spark、RDD、Hadoop）

spark rdd 如何过滤某个表大数据 spark filter

大数据-90 Spark 集群 RDD 编程-高阶 RDD容错机制、RDD的分区、自定义分区器（Scala编写）、RDD创建方式

51CTO博客

大数据rdd

大数据Spark RDD 函数

大数据之Spark RDD

大数据之Spark RDD

大数据Spark RDD介绍

大数据随记 —— RDD 的创建

大数据随记 —— RDD 的创建

大数据量redis和rocksdb对比 rdd 大数据

图解大数据 | 基于Spark RDD的大数据处理分析

大数据Spark RDD运行设计底层原理

大数据随记 —— Spark Core 与 RDD 简介

大数据（2）作业二：Spark RDD编程

大数据随记 —— Spark Core 与 RDD 简介

大数据Spark RDD持久化和Checkpoint

大数据-84 Spark 集群 RDD创建 RDD-Transformation操作算子 详解

大数据-89 Spark 集群 RDD 编程-高阶 编写代码、RDD依赖关系、RDD持久化/缓存

大数据-85 Spark 集群 RDD创建 RDD-Action Key-Value RDD详解 RDD的文件输入输出

大数据-83 Spark 集群 RDD编程简介 RDD特点 Spark编程模型介绍

大数据-91 Spark 集群 RDD 编程-高阶 RDD广播变量 RDD累加器 Spark程序优化

spark大数据分析:spark core(2) RDD数据读取

spark大数据分析:spark core(2) RDD数据读取

大数据第十四周——Spark编程(RDD编程)

spark大数据分析:spark core(6)缓存RDD

spark大数据分析:spark core(1) RDD概念

大数据智能综合训练编程题（Spark、RDD、Hadoop）

spark rdd 如何过滤某个表大数据 spark filter

大数据-90 Spark 集群 RDD 编程-高阶 RDD容错机制、RDD的分区、自定义分区器（Scala编写）、RDD创建方式

大数据-84 Spark 集群 RDD创建 RDD-Transformation操作算子详解

大数据-89 Spark 集群 RDD 编程-高阶编写代码、RDD依赖关系、RDD持久化/缓存