基本概念以下内容主要参考自《大数据Spark企业实战》一书(作者:王家林)Application:用户编写的Spark程序,包含Driver和Executor代码。Driver:运行main函数并且创建和关闭SparkContext的程序。Executor:运行在Worker节点上的一个进程,该进程负责运行某些Task,并且负责将数据存放在内存或磁盘中。在Spark On Yarn模式下,其进程名
转载 2023-09-25 20:27:42
54阅读
Spark 开发原则坐享其成要省要拖跳出单机思维 应用开发原则 :坐享其成 : 利用 Spark SQL 优化能省则省、能拖则拖 : 节省数据量 , 拖后 Shuffle跳出单机思维 : 避免无谓的分布式遍历坐享其成设置好配置项,享受 Spark SQL 的性能优势,如钨丝计划、AQE、SQL functions钨丝计划:Tungsten 自定义了紧凑的二进制格式的数据结构,避免了 Java 对
转载 2024-01-28 01:18:02
100阅读
1点赞
Spark扩展持久化RDD Cache缓存RDD CheckPoint 检查点缓存和检查点区别自定义分区存储与读取累加器广播持久化RDD Cache缓存RDD 通过 Cache 或者 Persist 方法将前面的计算结果缓存,默认情况下会把数据以缓存在 JVM 的堆内存中。但是并不是这两个方法被调用时立即缓存,而是触发后面的 action 算子时,该 RDD 将会被缓存在计算节点的内存中,并供后面重用。// cache 操作会增加血缘关系,不改变原有的血缘关系println(wordToOneR.
原创 2022-03-23 10:21:17
998阅读
Spark官方文档: Spark Configuration(Spark配置)Spark主要提供三种位置配置系统:环境变量:用来启动Spark workers,可以设置在你的驱动程序或者conf/spark-env.sh 脚本中;java系统性能:可以控制内部的配置参数,两种设置方法:编程的方式(程序中在创建SparkContext之前,使用System.setProperty(“xx”,“xxx
原创 2017-07-03 11:19:00
6469阅读
1点赞
spark架构设计 1 角色名称 Client,Driver program,cluster manager/Yarn,workerNode 2 角色作用 client:用户通过client提交application程序,shell命令等 Driver:启动sparkContext环境,将application程序转换成任务RDD和DAG有向图,与clustermanger进行资源交互,分配ta
1、Application  application(应用)其实就是用spark-submit提交的程序。一个application通常包含三部分:从数据源(比方说HDFS)取数据形成RDD,通过RDD的transformation和action进行计算,将结果输出到console或者外部存储。2、Driver  Spark中的driver感觉其实和yarn中Application Master的
一、定义与特点定义 专为大规模数据处理而设计的快速通用的计算引擎,并形成一个高速发展应用广泛的生态系统。特点 速度快 内存计算下,Spark 比 Hadoop 快100倍易用性 80多个高级运算符跨语言:使用Java,Scala,Python,R和SQL快速编写应用程序。通用性 Spark 提供了大量的库,包括SQL、DataFrames、MLib、Gra
转载 2023-08-10 09:12:39
366阅读
一、什么是SparkApache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框架。Spark,拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是——Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因
转载 2023-07-12 09:57:21
441阅读
一、前述Spark是基于内存的计算框架,性能要优于Mapreduce,可以实现hadoop生态圈中的多个组件,是一个非常优秀的大数据
原创 2022-12-30 16:48:57
224阅读
夜深了,,,Paypal黑帮【PayPal Mafia】的传奇估计大家都听说过。过来瞧瞧电子支付..
转载 2023-03-17 19:53:13
188阅读
# Spark中的队列管理及应用 Apache Spark 是一个强大的大数据处理框架,广泛应用于数据处理、数据分析和机器学习等领域。在使用Spark进行大数据处理时,合理管理任务队列是至关重要的。本文将探讨Spark中的队列管理,并通过实例展示如何使用Spark队列。 ## 什么是Spark队列? Spark队列是一种资源调度机制,允许用户在多个作业之间进行资源隔离和管理。在集群环境中,多
原创 10月前
138阅读
# Spark 查询中的 Spark URL Spark 是一个强大的分布式计算框架,广泛应用于数据处理和分析。为了方便用户使用 Spark,尤其是在基于集群的环境中,Spark 提供了一种允许用户通过 URL 访问集群的方式。本篇文章将深入探讨 Spark URL 的概念及其在 Spark 查询中的应用,并提供示例代码来加深理解。 ## 什么是 Spark URL? 一般而言,Spark
原创 2024-08-11 04:03:19
194阅读
https://www.youtube.com/watch?v=49Hr5xZyTEA
j
原创 2022-07-22 16:19:47
277阅读
一,变量1,基本数据类型2,基本运算符3,定义变量4,复杂变量 (1)定义数组Array:   声明:val aList=new Array[数据类型type](n):声明存储数据类型为type的n个对象,数组初始化为null   声明:val aList=Array(n1,n2,n3...):声明时,可以不用声明数据类型。  
转载 2023-10-03 11:42:46
275阅读
1、 Spark运行架构 1.1 术语定义 lApplication:Spark Application的概念和Hadoop MapReduce中的类似,指的是用户编写的Spark应用程序,包含了一个Driver 功能的代码和分布在集群中多个节点上运行的Executor代码; lDriver:Spark中的Driver即运行上述Application的main()函数并且创建SparkContex
转载 2023-11-11 18:40:34
111阅读
本文介绍的是高可用Spark环境的部署。一、准备工作JAVA8环境Zookeeper环境hadoop(2.7.7)环境scala语言环境二、安装Spark如果完成了准备工作,我们就可以开始安装Spark(HA)环境。2.1 下载spark因为我的Hadoop环境安装2.7.7版本的,所以Spark版本就要需要选择支持Hadoop2.7以上版本的Saprk,我下载的spark-2.4.0-bin-h
转载 2023-07-12 11:01:17
80阅读
Spark概念Spark是一种基于内存的快速、通用、可扩展的大数据分析计算引擎Spark 就是在传统的 MapReduce 计算框架的基础上,利用其计算过程的优化,从而大大加快了数据分析、挖掘的运行和读写速度,并将计算单元缩小到更适合并行计算和重复使用的 RDD 计算模型Spark 和Hadoop 的根本差异是多个作业之间的数据通信问题 : Spark 多个作业之间数据通信是基于内存,而 Hado
转载 2023-12-20 06:48:37
32阅读
1、概念独热编码(One-Hot Encoding) * 将表示为标签索引的分类特征映射到二进制向量,该向量最多具有一个单一的单值,该单值表示所有特征值集合中特定特征值的存在。 * 此编码允许期望连续特征(例如逻辑回归)的算法使用分类特征。 * 对于字符串类型的输入数据,通常首先使用StringIndexer对分类特征进行编码 * * OneHotEncoderEstimat
转载 2023-10-03 22:14:55
68阅读
每天都在努力的我,每天都在努力的你,总有一天我们会相见   Spark collect和collectAsList是用于将RDD/DataFrame/DataSet的所有元素检索到驱动程序节点的操作。如果数据集较大,使用collect之后可能会导致内存不足val data = Seq(Row(Row("James","","Smith"),"36636","M",30
转载 2023-08-19 00:24:27
311阅读
Spark是一个通用的大规模数据快速处理引擎。可以简单理解为Spark就是一个大数据分布式处理框架。基于内存计算的Spark的计算速度要比Hadoop的MapReduce快上100倍以上,基于磁盘的计算速度也快于10倍以上。Spark运行在Hadoop第二代的yarn集群管理之上,可以轻松读取Hadoop的任何数据。能够读取HBase、HDFS等Hadoop的数据源。  &nb
  • 1
  • 2
  • 3
  • 4
  • 5