目录​​1 函数分类​​​​2 Transformation函数​​​​3 Action函数​​​​4 重要函数​​​​4.1 基本函数​​​​4.2 分区操作函数​​​​4.3 重分区函数​​​​4.4 聚合函数​​​​4.4.1 集合中聚合函数​​​​4.4.2 RDD 中聚合函数​​​​4.4.3 PairRDDFunctions 聚合函数​​​​4.4.4 面试题​​​​4.5 关联函数​
原创 2021-08-23 21:20:10
520阅读
Spark的算子分为两类:一类叫做Transformation(转换),延迟加载,它会记录元数据信息,当计算任务触发Action,才
原创 2022-01-12 15:42:05
204阅读
Spark的算子分为两类:一类叫做Transformation(转换),延迟加载,它会记录元数据信息,当计算任务触发Action,才会真正开始计算; 一类叫做Action(动作);一个算子会产生多个RDDRDD(Resilient Distributed Dataset)叫做分布式数据集,是Spark中最基本的数据抽象,它代表一个不可变、可分区、里面的元素可并行计算的集合。一、RDD创建方式方式一
原创 2022-04-22 10:07:49
131阅读
目录​​1 RDD 定义​​​​2 RDD 特性​​​​3 WordCount中RDD​​​​4 RDD 创建​​​​4.1 并行化集合​​​​4.2 外部存储系统​​​​4.3 小文件读取​​​​4.4 RDD 分区数目​​ 1 RDD 定义对于大量的数据,Spark 在内部保存计算的时候,都是用一种叫做弹性分布式数据集(ResilientDistributed Datasets,RDD)的数据
原创 2021-08-21 00:01:44
469阅读
大数据系列文章:? 目录 ? 文章目录 一、从集合(内存)中创建 RDD二、从加载文件(外存)创建 RDD三、从 RDD 转换成新的 RDD 一、从
原创 3月前
105阅读
Spark 会将集合中的数据拷贝到集群上去,形成一个分布式的数据集合,也就是形成一个 RDD。也就是说,集合中的部分数据会到
原创 2022-12-28 11:38:53
130阅读
什么是Spark?关于Spark具体的定义,大家可以去阅读官网或者百度关于Spark的词条,在此不再赘述。从一个野生程序猿的角度去理解,作为大数据时代的一个准王者,Spark是一款主流的高性能分布式计算大数据框架之一,和MapReduce,Hive,Flink等其他大数据框架一起支撑了大数据处理方案的一片天空。笔者所在的公司,集群里面有数千台高配机器搭载了Spark(还有Hive和Flink),用
RDD(弹性分布式数据集合)是Spark的基本数据结构,Spark中的所有数据都是通过RDD的形式进行组织。本文讲解RDD的属性、创建方式、广播与累加器等重要知识点,并图解RDD高频算子。
原创 2022-03-12 12:30:35
8433阅读
1点赞
一、RDD设计背景在实际应用中,存在许多迭代式算法(比如机器学习、图算法等)和交互式数据挖掘工具,这些应用场景的共同之处是,不同计算阶段之间会重用中间结果,即一个阶段的输出结果会作为下一个阶段的输入。但是,目前的MapReduce框架都是把中间结果写入到HDFS中,带来了大量的数据复制、磁盘IO和序列化开销。虽然,类似Pregel等图计算框架也是将结果保存在内存当中,但是,这些框架只能支持一些特定
原创 2021-03-07 20:17:52
1812阅读
弹性分布式数据集(RDD,Resilient Distributed Datasets),它具备像 MapReduce 等数据流模型的容错特性,能在并行计算中高效地来创建。...
原创 2022-12-28 11:38:49
225阅读
1.准备文本文件,从文件创建RDD lines=sc.textFile(),筛选出含某个单词的行 lines.filter(),lambda 参数:条件表达式 2.生成单词的列表,从列表创建RDD words=sc.parallelize(),筛选出长度大于2 的单词 words.filter() ...
转载 2021-04-10 16:54:26
510阅读
2评论
大数据系列文章:​​? 目录 ?​​ 文章目录​​一、Spark Core​​​​二、RDD​​​​1. RDD 简介​​​​2. RDD 的特性(核心属性)​​​​Ⅰ)一系列的分区信息
原创 3月前
56阅读
原创 2021-08-24 20:36:55
497阅读
上节Spark的RDD介绍、RDD特点、Spark编程模型。本节研究SparkRDD的创建,RDD-Transformation操作算子,并附带测试案例,详细过程。
原创 精选 2024-08-20 10:47:16
244阅读
上节研究了Spark的RDD的Super Word Count程序,实现了将计算结果写入到MySQL中。本节研究Spark的高阶编码、RDD的依赖关系,RDD
原创 2024-08-25 14:38:54
95阅读
上节完成了SparkRDD的创建,从集合、文件、RDD创建 RDD的方式,并且详细介绍了 Transformation的操作内容。对象文件的输出。
原创 2024-08-20 10:46:54
157阅读
上节完成了Spark集群环境部署和配置,并且启动SparkShell。本节研究RDD编程,RDD编程简介,RDD创建、Spark编程模型的简介。
原创 2024-08-20 10:47:33
142阅读
上节研究了RDD的容错机制、分区机制、分区器、自定义分区器等内容。本节研究RDD的广播变量、RDD的累加器,用来对S化Spark程序。
原创 2024-08-25 14:38:47
99阅读
文章目录
原创 2022-02-10 10:32:40
302阅读
文章目录
原创 2021-05-31 17:19:04
365阅读
  • 1
  • 2
  • 3
  • 4
  • 5