Spark的基本概念:(1)Application:表示你的应用程序(2)Driver:表示main()函数,创建SparkContext。由SparkContext负责与ClusterManager通信,进行资源的申请,任务的分配和监控等。程序执行完毕后关闭SparkContext(3)Executor:某个Application运行在Worker节点上的一个进程,该进程负责运行某些task,并
转载
2023-08-08 13:13:52
96阅读
一、spark是什么简单来讲,spark是一种计算引擎,对标hardoop中的mapreduce,应用于大规模数据处理二、spark的原理spark的计算规则就是RDD,搞清楚RDD是什么,就搞清楚spark的计算原理。RDD就是源数据的抽象,或者叫映射,或者就代表。也就是说,数据要被spark进行处理,在处理之前的首要任务就是要将数据映射成RDD,对于spark来说,RDD才是我们处理数据的规则
本篇博文是小二由工作经验所得,纯属个人所思所感!!! 一、Spark(快速、通用、可扩展的分布式的计算引擎)1.spark简介: Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行计算框架,Spark拥有Hadoop MapReduce
转载
2023-09-18 12:09:56
113阅读
一、大数据架构 并发计算:并行计算:很少会说并发计算,一般都是说并行计算,但是并行计算用的是并发技术。并发更偏向于底层。并发通常指的是单机上的并发运行,通过多线程来实现。而并行计算的范围更广,他是散布到集群上的分布式计算。Spark内存计算比hadoop快100倍,磁盘计算快10倍,在worker节点主要基于内存进行计算,避免了不必要的磁盘io。二、Spark模块Spark是没有分布式存
转载
2023-08-21 11:17:07
57阅读
转化操作
map(func) | 返回一个新的分布数据集,由原数据集元素经func处理后的结果组成
filter(func) | 返回一个新的数据集,由传给func返回True的原数据集元素组成
flatMap(func) | 与map类似,但是每个传入元素可能有0或多个返回值,func可以返回一个序列而不是一个值
mapParitions
目录一、Spark概述1.1spark框架与hadoop框架1.2Spark的内置模块1.3Spark的特点 二、Spark的使用2.1Spark的运行模式2.2Local模式2.3Spark集群中的角色介绍 2.4Standalone模式 2.5YARN模式三、WordCount案例一、Spark概述 &nb
转载
2023-09-26 09:54:52
61阅读
Spark算子的作用 下图描述了Spark在运行转换中通过算子对RDD进行转换。 算子是RDD中定义的函数,可以对RDD中的数据进行转换和操作。 输入:在Spark程序运行中,数据从外部数据空间(如分布式存储:textFile读取HDFS等,parallelize方法输入Scala集合或数据)输入Spark,数据进入Spark运行时数据空间,转化为Spark中的数据块,通过BlockM
spark-shellspark-shell是Spark自带的交互式Shell程序,方便用户进行交互式编程,用户可以在该命令行下可以用scala编写spark程序,适合学习测试时使用!●示例spark-shell可以携带参数spark-shell --master local[N] 数字N表示在本地模拟N个线程来运行当前任务spark-shell --master local[*] 表示...
原创
2021-12-29 13:56:28
206阅读
1,概述个人认为,如果把分布式系统(HDFS, HBASE,SPARK等)比作一个人,那么RPC可以认为是人体的血液循环系统。它将系统中各个不同的组件(如Hbase中的master, Regionserver, client)联系了起来。同样,在spark中,不同组件像driver,executor,worker,master(stanalone模式)之间的通信也是基于RPC来实现的。Sp...
原创
2022-08-09 17:04:21
326阅读
本篇博客,Alice为大家带来关于Spark命令的详解。spark-shell引入 之前我们使用提交任务都是使用spark-shell提交,spark-shell是Spark自带的交互式Shell程...
原创
2021-06-01 17:48:51
543阅读
RDD叫做弹性分布式数据集 RDD概述 1.什么是RDDRDD(Resilient Distributed Dataset)叫做分布式数据集,是Spark中最基本的数据抽象,它代表一个不可变、可分区、里面的元素可并行计算的集合。RDD具有数据流模型的特点:自动容错、位置感知性调度和可伸缩性。RDD允
转载
2021-01-21 16:42:00
424阅读
2评论
checkpoint在spark中主要有两块应用:一块是在spark core中对RDD做checkpoint,可以切断做checkpoint RDD的依赖关系,将RDD数据保存到可靠存储(如HDFS)以便数据恢复;另外一块是应用在spark streaming中,使用checkpoint用来保存D
转载
2018-08-19 09:31:00
257阅读
2评论
Submitting Applications提交应用程序在spark的bin目录下spark-submit脚本被用于在集群中启动应用程序。它可以通过一个统一的接口来使用Spark支持的所有集群管理器(目前Spark支持的集群模式有自带的Standalone、Apache Mesos、Hadoop YARN、Kubernetes),因此你不必为每个集群模式特意配置你的应用程序。Bundling Y
## Spark updateStateByKey详解
### 引言
在Spark编程中,updateStateByKey函数是一个非常有用的函数,它可以用来实现状态的更新。对于刚入行的小白开发者来说,掌握updateStateByKey函数的使用方法是非常重要的。本文将详细介绍updateStateByKey函数的使用方法,并通过一个实际的例子来演示其用法。
### updateStateB
# Spark RDD详解
Apache Spark是一个强大的分布式计算框架,它使用RDD(弹性分布式数据集)来处理数据。本文将为刚入门的小白提供一份详细的Spark RDD使用指南。
## 处理流程
下面是使用Spark RDD的基本流程:
| 步骤 | 描述 |
|-----|-------
本篇博客,Alice为大家带来关于Spark命令的详解。
spark-shell引入 之前我们使用提交任务都是使用spark-shell提交,spark-shell是Spark自带的交互式Shell程序,方便用
原创
2022-04-01 13:45:51
503阅读
1、参考文档:spark-1.3.0:http://spark.apache.org/docs/1.3.0/running-on-yarn.htmlspark-1.6.0:
原创
2021-08-07 10:35:17
399阅读
spark-shellspark-shell是Spark自带的交互式Shell程序,方便用户进行交互式编程,用户可以在该命令行下可以用scala编写spark程序,适合学习测试时使用!●示例spark-shell可以携带参数spark-shell --master local[N] 数字N表示在本地模拟N个线程来运行当前任务spark-shell --master local[*] 表示...
原创
2022-02-16 16:24:56
237阅读
package test;import java.util.Arrays;import java.uti
原创
2022-07-19 19:50:31
96阅读
import org.apache.spark.SparkConf; import org.ap
原创
2022-07-19 19:50:51
83阅读