spark-RDD概念_51CTO博客

Spark-RDD编程

Spark-RDD编程

Spark教程

大数据技术

转载

蜡笔小新v

2021-06-10 20:54:49

201阅读

Spark-RDD编程

Spark-RDD编程

Spark教程

大数据技术

转载

wx5c7a97e3804fd

2021-06-10 20:54:50

159阅读

Spark-RDD编程

x

Hadoop/Spark

Kafka

并行操作

数据集

共享变量

原创

靠谱杨编程日记

2022-12-13 11:01:13

110阅读

spark-RDD源码分析

http://stark-summer.iteye.com/blog/2178096 RDD的核心方法：首先看一下getPartitions方法的源码： getPartitions返回的是一系列partitions的集合，即一个Partition类型的数组我们就想进入HadoopRDD实现： 1

hadoop

依赖关系

数组

微信公众号

大数据

转载

web3之路

2018-09-14 08:42:00

168阅读

2评论

Spark-RDD之Partition源码分析

spark

hadoop

hdfs

数据

html

转载

mb5fe94bf10ac65

2018-09-14 08:48:00

215阅读

2评论

Spark RDD 学习导入pysparkimport pyspark初始化SparkContextsc = pyspark.SparkContext(master="local[*]",appName="test1")RDD Transform算子将一个列表构建成一个rddrdd1 = sc.parallelize([1,2,3,4,5])收集并显示rdd中的数据rdd1...

python

spark

数据分析

大数据

d3

原创

尼克不可

2021-11-18 09:17:43

444阅读

Spark-RDD 键值对的操作（Scala版）

键值对RDD是Spark中许多操作所需要的常见数据类型。键值对RDD通常用来进行聚合运算，我们一般要先通过一些初始ETL（抽取，转化，装载）操作来将数据转化为键值对形式。Spark

Spark

RDD

键值对

数据

键值

原创

二哥不像程序员

2023-02-17 10:01:27

91阅读

大数据开发-Spark-RDD的持久化和缓存

1.RDD缓存机制 cache, persist Spark 速度非常快的一个原因是 RDD 支持缓存。成功缓存后，如果之后的操作使用到了该数据集，则直接从缓存中获取。虽然缓存也有丢失的风险，但是由于 RDD 之间的依赖关系，如果某个分区的缓存数据丢失，只需要重新计算该分区即可。涉及到的算子：pe ...

Spark

转载

mb607022e25a607

2021-05-13 22:55:32

206阅读

2评论

大数据开发-Spark-RDD实操案例-http日志分析

1.在生产环境下，如何处理配置文件 && 表的数据处理配置文件，或者配置表，一般是放在在线db，比如mysql等关系型数据库，或者后台rd直接丢给你一份文件，数据量比起整个离线数据仓库的大表来说算很小，所以这种情况下，一般的做法是将小表，或者小文件广播出去，那么下面一个例子来看，广播表的使用解决i ...

Spark-RDD

转载

mb607022e25a607

2021-05-13 22:52:59

582阅读

2评论

什么是RDD?带你快速了解Spark中RDD的概念!

看了前面的几篇Spark博客，相信大家对于Spark的基本概念以及不同模式下的环境部署问题已经搞明白了。但其中，我们曾提到过Spark程序的核心，也就是弹性分布式数据集(RDD)。但到底什么是RDD,它是做什么用的呢？本篇博客，我们就来详细讨论它们的使用情况。文章目录RDD概述1.什么是RDD2.R...

Spark

大数据技术

原创

大数据梦想

2021-06-01 17:48:48

428阅读

什么是RDD?带你快速了解Spark中RDD的概念!

spark

云计算/大数据

hadoop

scala

RDD

原创

大数据梦想

2022-04-01 11:56:54

164阅读

spark大数据分析:spark core(1) RDD概念

文章目录RDD 的初步了解数据存储分布式存储内存优先数据可靠性数据分析程序调度DriverJobstagetaskmasterworkerexecutorRDD 的初步了解数据存储RDD 是一种集合,用来存储和管理数据分布式存储分布式运算思想是将大数据量数据分成多份,使用多台机器处理,待所有机器处理完毕汇总到同一台机器上

数据

spark

程序调度

原创

wx5ba7ab4695f27

2022-02-10 10:32:27

117阅读

Spark笔记整理（二）：RDD与spark核心概念名词

Spark笔记整理（二）：RDD与spark核心概念名词

大数据

Spark

原创

xpleaf

2018-04-25 16:58:35

10000+阅读

spark RDD扩容 spark rdd union

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言一、基本概念1.RDD的生成2.RDD的存储3.Dependency4.Transformation和Action4.1 Transformation操作可以分为如下几种类型：4.1.1 视RDD的元素为简单元素。4.1.2 视RDD的元素为Key-Value对:4.2 Action操作可以分为如下几种：5.shuffl

spark RDD扩容

spark

数据集

一对一

输入输出

转载

mob64ca140234eb

2023-11-14 09:26:59

105阅读

spark大数据分析:spark core(1) RDD概念

文章目录RDD 的初步了解数据存储分布式存储内存优先数据可靠性数据分析程序调度DriverJobstagetaskmasterworkerexecutorRDD 的初步了解数据存储RDD 是一种集合,用来存储和管理数据分布式存储分布式运算思想是将大数据量数

spark

原创

wx5ba7ab4695f27

2021-05-31 17:19:16

403阅读

spark rdd操作 spark rdd sql

是什么 SparkSql 是Spark提供的高级模块，用于处理结构化数据，开发人员可以使用HiveQL 和SQL语言实现基于RDD的大数据分析，底层基于RDD进行操作，是一种特殊的RDD，DataFrameRDD类型 1. 将SQL查询与Spark无缝混合，可以使用SQL或者Da

spark rdd操作

SparkSQL

Spark

SQL

Hive

转载

编程小天才

2023-08-10 20:44:14

114阅读

spark rdd 架构 spark rdd union

窄依赖所谓窄依赖就是说子RDD中的每个分区（partition）只依赖于父RDD中有限个数的partition。在API中解释如下：　　窄依赖在代码中有两种具体实现，一种是一对一的依赖：OneToOneDependency，从其getparent方法中不难看出，子RDD只依赖于父 RDD相同ID的Partition。另外一种是范围的依赖，RangeDependency，它仅仅被org.apache

spark rdd 架构

Spark

Spark 源码解读

数据

spark

转载

架构魔法之光

2023-06-11 15:26:05

137阅读

spark rdd存储 spark rdd sql

1.1 什么是Spark SQL 　　　　　　　　　　　　Spark SQL是Spark用来处理结构化数据的一个模块，它提供了一个编程抽象叫做DataFrame并且作为分布式SQL查询引擎的作用　　　　　　它是将Hive SQL转换成MapReduce然后提交到集群上执行，大大简化了编写MapReduce的程序的复杂性，由于MapReduce这种计算模型执行效率比较慢。所有S

spark rdd存储

spark

字段

数据

转载

AIGC创想家

2023-07-11 20:00:57

108阅读

spark rdd 随机rdd

一、Spark包括什么spark的核心是Spark Core，其中上面的Spark Sql对接的是Hive等结构化查询，Spark Streaming是对接的流式计算，后面的那两个也是主要用在科学任务中，但是他们的基础都是spark core，而Spark core的核心就是RDD操作，RDD的操作重要的就是算子，也就是说，掌握了算子基本上就掌握了spark的基础。二、RDD1、是什么？&nbsp

spark rdd 随机rdd

spark基础解析

数据

缓存

spark

转载

人类新新

7月前

35阅读

Spark RDD

弹性分布式数据集（RDD）不仅仅是一组不可变的JVM(Java虚拟机) 对象的分布集，可以让你执行高速运算，而且是Apark Spark的核心。顾名思义，该数据集是分布式的。基于某个关键字，该数据集被划分成多块，同时分发到执行结点。这样做可以使得此类数据集能够执行高速执行运算。另外，RDD将跟踪（记入日志）应用于每个块的所有转换，以加快计算速度，并在发生错误和部分数据丢失时提供回退。在这种情况...

数据集

spark

数据丢失

C

原创

姜兴琪

2022-03-15 14:06:34

172阅读

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯

51CTO博客

spark-RDD概念

Spark-RDD编程

Spark-RDD编程

Spark-RDD编程

spark-RDD源码分析

Spark-RDD之Partition源码分析

Python Spark-RDD 常用用法

Spark-RDD 键值对的操作（Scala版）

大数据开发-Spark-RDD的持久化和缓存

大数据开发-Spark-RDD实操案例-http日志分析

什么是RDD?带你快速了解Spark中RDD的概念!

什么是RDD?带你快速了解Spark中RDD的概念!

spark大数据分析:spark core(1) RDD概念

Spark笔记整理（二）：RDD与spark核心概念名词

spark RDD扩容 spark rdd union

spark大数据分析:spark core(1) RDD概念

spark rdd操作 spark rdd sql

spark rdd 架构 spark rdd union

spark rdd存储 spark rdd sql

spark rdd 随机rdd

Spark RDD

Spark RDD

Spark迭代RDD spark rdd基本操作

java rdd使用 spark spark rdd union

spark dataframe rdd spark dataframe rdd 区别

spark rdd的特性 spark rdd partition

spark rdd 返回string spark rdd dag

spark RDD 拆分 spark rdd基本操作