1. 打包File -> Project  Structure -> Artifact -> + -> JAR -> From module with dependencies选择一个Module,之后再选择一个主类选择要打包的依赖
原创 2022-10-28 12:08:18
298阅读
在进行spark本地模式开发之前,首先需要理解spark local模式是什么以及如何使用。Spark local模式是一种用于在本地机器上运行Spark应用程序的模式,用于在本地进行开发和测试,而不需要连接到集群。这在开发初期和调试阶段非常有用,因为可以在没有集群资源的情况下立即运行和测试应用程序。 下面将分步骤向新手小白介绍如何使用spark local模式进行开发: ### 步骤概览
原创 2024-04-30 11:37:17
82阅读
文章目录Spark Local 环境部署1.基本原理2.环境部署一、下载地址二、条件三、Anaconda On Linux安装四、解压五、环境变量六、上传Spark安装包七、测试 Spark Local 环境部署1.基本原理本质:启动一个JVM Process进程(一个进程里面有多个线程),执行任务Task。Local模式可以限制模拟Spark集群环境的线程数量,即Local[N]或Local[
背景本文基于spark 3.3.0 在看spark源码的时候,总是会看到类似longMetric("numOutputRows")的信息,但是一般来说这种metrics的定义一般是在Driver端,而真正的+1或者-1操作都是在executor进行的,这种指标到底是怎么传递的呢?我们分析一下分析以FilterExec物理计划为例:case class FilterExec(condition: E
转载 2024-01-11 22:08:53
62阅读
spark 是计算追着数据走, storm 是数据追着计算走, 所以如果数据量比较小,要求延迟比较小, 就适合storm, 但是如果数据量比较大, 这个时候如果传输数据, 就会碰到很大的带宽占用和性能下降, 这个时候就比较适合让计算去找数据,但是在计算找数据的过程中, 是怎么让计算找到数据呢, 这个就是这篇文章谈的, spark 的计算本地性不同的 Locality LevelPROCESS_LO
Spark文档阅读之Spark Overview。学习Spark的使用方式、任务提交、cluster模式和相关术语。 Document: https://spark.apache.org/docs/latest/index.html 版本:2.4.5 1. spark的几种执行方式1)交互式shell:bin/spark-shellb
转载 2024-08-15 01:03:04
26阅读
spark----local模式1, 了解内容 1.Spark官网地址 http://spark.apache.org/ 2.文档查看地址 https://spark.apache.org/docs/2.4.0/ 3.下载地址 https://spark.apache.org/downloads.html2 ,重要角色2.1 Driver(驱动器) Spark的驱动器是执行开发程序中的main方法
转载 2023-09-21 08:45:09
300阅读
Spark系列-初体验(数据准备篇)Spark系列-核心概念一. Spark核心概念Master,也就是架构图中的Cluster Manager。Spark的Master和Workder节点分别Hadoop的NameNode和DataNode相似,是一种主从结构。Master是集群的领导者,负责协调和管理集群内的所有资源(接收调度和向WorkerNode发送指令)。从大类上来分Master分为lo
spark有四种最基本的运行模式local模式 standalone scheduler模式 yarn模式 mesos模式sparklocal模式就是本地模式,就是单机跑,无需启动集群进入spark客户端提交任务即可//这样进去的话是spark local模式 [root@doit01 spark-2.3.3-bin-hadoop2.7]# /usr/apps/spark-2.3.3-bin-h
转载 2023-08-16 10:23:46
83阅读
Spark在Driver上对Application的每个task任务进行分配之前,都会先计算出每个task要计算的对应的数据分片的位置。Spark的task分配算法优先考虑将task分配到分片数据所在的节点,以此来避免网络间数据传输带来的性能消耗。但是在实际的生产环境,有可能某些task没有机会分配到其所要计算的数据所在的节点;因为某些节点的计算资源都已经被占用完了;在这个时候,task会等待一段
前置环节介绍: node1:hadoop NN DN RM NM ,hive node2:hadoop SNN DN NM node3:hadoop DN NMLocal模式local模式基本原理 本质:启动一个JVM Process进程(一个进程里面有多个线程),执行任务Task、 Local模式可以限制模拟Spark集群环境的线程数量,即local[a]或local[*]其中N代表可以使用N个
转载 2024-01-21 00:46:29
26阅读
park没有在本地模式下运行,因此检查点目录
原创 2022-02-13 14:01:10
300阅读
spark local模式 下载,安装,验证
原创 2023-04-03 21:26:15
66阅读
Spark执行的时候报错:WARN spark.SparkContext: Spark is not running in local mode, therefore the checkpoint directory must not be on the local filesystem. Directory 'file:///home/checkpointData' appears to be on the local filesystem.简单翻译下:Spark没有在本地模式下运行,因此检查点目录
原创 2021-08-10 10:13:14
510阅读
1. 前言反反复复捣鼓了很久,终于开始学习Spark的源码了,果不其然,那真的很有趣。这里我打算一本正经的胡说八道来讲一下Spark作业的提交过程。基础mac系统基础环境如下:JDK 1.8IDEA 2019.3源码Spark 2.3.3Scala 2.11.8提交脚本# 事先准备好的Spark任务(源码example LocalPi)基于local模式 bash spark-submit \ -
转载 2024-04-17 10:31:15
51阅读
Spark 运行环境Spark 作为一个数据处理框架和计算引擎,被设计在所有常见的集群环境
原创 2022-09-15 19:46:23
169阅读
Spark数据本地性分布式计算系统的精粹在于移动计算而非移动数据,但是在实际的计算过程中,总存在着移动数据的情况,除非是在集群的所有节点上都保存数据的副本。移动数据,将数据从一个节点移动到另一个节点进行计算,不但消耗了网络IO,也消耗了磁盘IO,降低了整个计算的效率。为了提高数据的本地性,除了优化算法(也就是修改spark内存,难度有点高),就是合理设置数据的副本。设置数据的副本,这需要通过配置参
转载 2024-05-12 19:42:36
80阅读
一,只做一次的事情hadoop,spark,scala,maven,scala插件,1,下载hadoop,scala,spark,jdk。版本要适配,下面为一组搭配。下载后解压,然后配置环境变量hadoop-2.7.0scala-2.11.12spark-2.4.0JDK 1.8.0配置scala 环境变量 和 配置JDK环境变量 一样    系统变量新增 :  &n
转载 2023-10-11 23:48:57
79阅读
如何一步一步地在Intellij IDEA使用Maven搭建spark开发环境,并基于scala编写简单的spark中wordcount实例。1.准备工作 首先需要在你电脑上安装jdk和scala以及开发工具Intellij IDEA,本文中使用的是win7系统,环境配置如下:jdk1.7.0_15 scala2.10.4scala官网下载地址:http://www.scala-lang.or
转载 1月前
358阅读
执行spark-sql时,查询数据量超过1.7亿行,数据量大小38G,出现系统盘占用突然变高的情况 检查为 /tmp 目录下,spark生成的临时目录占用了大量的磁盘空间,生成的spark临时文件超过15G了。 解决方案为: 1、删除 /tmp/spark* 的文件 rm -rf  /tmp/spark*  2、修改spark执行时临时目录的配置,在 conf 目录下的spa
转载 2023-06-30 14:58:57
371阅读
  • 1
  • 2
  • 3
  • 4
  • 5