生命不息,折腾不止,趁着最近工作不是太忙继续我的编程之路的学习。    年龄大了,很多东西做过一遍就容易忘记,所谓“好记性不如烂笔头”,对于知识还是记录下来比较容易保存,既是给自己留个笔记,也可以分享给其他有需要的人。废话少说,以下记录我的spark学习之旅:    一、准备工作    1.准备三台服务器.一台作为master,另外两台作为slave    我这里准备了三台服务器,对应的I
随手记录一些用到的东西或问题,防止自己忘记或再次遇到 文章目录启动顺序Hadoopzookeeper启动启动Saprk涉及到hostname的配置文件宿主机hosts配置文件Ubuntu自身配置文件zookeeper配置文件包含主机名HadoopSpark配置文件包含主机名 启动顺序先启动Hadoop 集群,再启动zookeeper,最后启动sparkHadoop格式化:跟重装系统一样,只能第一次
# Spark需要Hadoop? ## 简介 在大数据处理领域,HadoopSpark是两个非常流行的框架。Spark是一个快速、通用的大数据处理引擎,而Hadoop是一个用于分布式存储和处理大规模数据的框架。在很多情况下,Spark需要依赖Hadoop来运行。本文将介绍Spark需要Hadoop的情况以及如何配置环境以实现这个目标。 ## 流程概述 下面是实现“Spark需要Hadoop
原创 2024-05-09 05:03:35
24阅读
## Spark是否需要Hadoop? Apache Spark是一个快速、通用的大数据处理引擎,它可以独立运行,也可以与Hadoop集成使用。但是,并不是必须要使用Hadoop才能使用Spark。在实际应用中,Spark可以直接读取本地文件系统或其他分布式文件系统,而不一定非要依赖HDFS。SparkHadoop的结合是为了利用Hadoop生态系统的各种组件和资源管理框架。 ### 实现“
原创 2024-04-29 11:39:33
376阅读
1 相关概念Spark 是一种基于内存的快速、通用、可扩展的大数据分析计算引擎。1.1 与Hadoop区别SparkHadoop中的MapReduce相似,都是用于进行并行计算的框架,二者根本差异是多个作业之间的数据通信问题 : Spark 的多个作业之间数据通信是基于内存,而 Hadoop 是基于磁盘,因此Spark作为MapReduce的升级改进,计算速度会更快。MapReduce 由于其设
到 Github 下载支持 Hadoop 2.5 及其之前版本的 Spark 2.2.1 :https://github.com/397090770/spark-2.2-for-hadoop-2.2Apache Spark 2.2.0 于今年7月份正式发布,这个版本是 Structured Streaming 的一个重要里程碑,因为其可以正式在生产环境中使用,实验标签(expe
转载 2024-06-12 00:17:26
13阅读
一.基础知识 1.Spark Spark是一个用来实现快速而通用的集群计算的平台。 在速度方面,Spark扩展了广泛使用的MapReduce计算模型,而且高效地支持更多计算模式,包括交互式查询和流处理。 Spark项目包含多个紧密集成的组件。Spark的核心是一个对由很多计算任务组成的、运行在多个工作机器或者是一个计算集群上的应用进行调度、分发以及监控的计算引擎。 Spark的各个组件 2.Ha
转载 2023-10-05 16:22:10
59阅读
Win10 Hadoop2.7.1+Spark2.2.0+Scala2.11.11 环境搭建与测试一、文件准备1.apache-maven-3.2.5.zip说明:用于构建Maven项目链接:https://pan.baidu.com/s/1t3o3d-20dC7rUrV3fQSPPA          bd
软硬件环境   名称   版本系统Ubuntu 18.04.4 LTS内存 7.5GiB处理器Intel Core i7-8565U CPU @ 1.80GHz *8图形Intel UHD Graphics(Whiskey Lake 3*8 GT2)GNOME3.28.2操作系统类型64位磁盘251.0 GBHadoop2.10.0Spark2.3
转载 2024-10-11 18:11:36
21阅读
说明:主节点IP:192.168.35.134   主机名:master        从节点slave1 IP: 192.168.35.135   主机名:slave1        从节点slave2 IP: 192
转载 2024-06-24 17:32:06
35阅读
Spark其实是Hadoop生态圈的一部分,需要用到Hadoop的HDFS、YARN等组件。为了方便我们的使用,Spark官方已经为我们将Hadoop与scala组件集成到spark里的安装包,解压开箱即可使用,给我们提供了很大的方便。如果我们只是本地学习的spark,又不想搭建复杂的hadoop集群,就可以使用该安装包。spark-3.2.0-bin-hadoop3.2-scala2.13.tg
转载 2023-07-18 22:36:13
746阅读
windowsscalaspark 可以看到spark要求hadoop版本大于2.7,解压完后将(D:/spark/bin)添加到环境变量中hadoop 记得版本要大于2.7,我们下载hadoop-x.y.z.tar.gz 文件(带src的源文件,需要自己编译),同样将(D:/hadoop/bin)添加到环境变量中这里有一个及其关键的操作,咱们创建一个HADOOP_HOME的环境变量,值为(D:/
转载 2024-02-03 11:09:04
101阅读
说明:主节点IP:192.168.35.134   主机名:master        从节点slave1 IP: 192.168.35.135   主机名:slave1        从节点slave2 IP: 192
转载 2024-08-02 08:53:54
13阅读
在这一.基础知识1.SparkSpark是一个用来实现快速而通用的集群计算的平台。在速度方面,Spark扩展了广泛使用的MapReduce计算模型,而且高效地支持更多计算模式,包括交互式查询和流处理。Spark项目包含多个紧密集成的组件。Spark的核心是一个对由很多计算任务组成的、运行在多个工作机器或者是一个计算集群上的应用进行调度、分发以及监控的计算引擎。Spark的各个组件2.HadoopH
# Hadoop启动需要联网? ## 引言 Hadoop是一个开源的分布式计算框架,被广泛应用于大规模数据存储和处理的场景。在学习和使用Hadoop之前,初学者可能会有很多疑问,其中一个常见的问题是:Hadoop启动时是否需要联网? ## Hadoop启动流程 为了更好地回答这个问题,我们需要先了解Hadoop启动流程。下面是Hadoop启动的基本步骤: | 步骤 | 描述 | | -
原创 2023-09-04 12:34:50
134阅读
在基于Hadoop集群的大规模分布式深度学习一文中,雅虎介绍了其集Caffe和Spark之长开发CaffeOnSpark用于大规模分布式深度学习,并向github.com/BVLC/caffe贡献了部分代码。现在,雅虎机器学习团队又在这篇tumblr文章上宣布将整个CaffeOnSpark开源作为Spark的深度学习包。Github:yahoo/CaffeOnSpark(Apache 2.0 li
转载 2024-07-26 16:57:46
28阅读
Spark与hadoopHadoop有两个核心模块,分布式存储模块HDFS和分布式计算模块MapreduceSpark 支持多种编程语言,包括 Java、Python、R 和 Scala,同时 Spark 也支持 Hadoop 的底层存储系统 HDFS,但 Spark 不依赖 HadoopHadoop的Mapreduce与spark都可以进行数据计算,而相比于Mapreduce,spark
转载 2023-07-18 22:23:54
149阅读
在Linux集群上部署SparkSpark安装部署比较简单, 用户可以登录其官方网站(http://spark.apache.org/downloads.html) 下载Spark最新版本或历史版本,也可以查阅Spark相关文档作为参考。本书开始写作时,本章所述的环境搭建均以Spark 1.5.0版为例。 Spark使用了Hadoop的HDFS作为持久化存储层,因此安装Spark时,应先安装与Sp
最近毕设需要用到 Spark 集群,所以就记录下了部署的过程。我们知道 Spark 官方提供了三种集群部署方案: Standalone, Mesos, YARN。其中 Standalone 最为方便,本文主要讲述结合 YARN 的部署方案。 软件环境:Ubuntu 14.04.1 LTS (GNU/Linux 3.13.0-32-generic x86_64) Hadoop: 2.6.0 Sp
转载 2024-06-21 20:44:47
20阅读
一、RDD依赖关系 ### --- RDD依赖关系 ~~~ RDD只支持粗粒度转换,即在大量记录上执行的单个操作。 ~~~ 将创建RDD的一系列Lineage(血统)记录下来,以便恢复丢失的分区。 ~~~ RDD的Lineage会记录RDD的元数据信息和转换行为, ~~~ 当该RDD的部分分区数据丢失时,可根据这些信息来重新运算和恢复丢失的
  • 1
  • 2
  • 3
  • 4
  • 5