Spark的安装及配置安装与配置spark开发环境

转载

mob64ca140c3859 2024-01-05 17:05:34

文章标签 Spark的安装及配置环境配置 hadoop Hadoop 文章分类 Spark 大数据

anaconda的安装与环境配置
java的安装与环境配置
scala的安装与环境配置
hadoop的安装与环境配置
spark的安装与环境配置
下载winutils.exe和hadoop.dll
Python下Spark开发环境搭建
安装Py4j

一、Anaconda的安装与环境配置

下载anaconda

anaconda安装过后，记得去环境变量看一下是否有以下路径。

Spark的安装及配置安装与配置spark开发环境_hadoop

检验是否安装成功

打开cmd输入python、conda env list指令查看是否显示相关版本信息

二、Java的安装与配置

首先需要下载并安装jdk，然后配置环境变量。

Oracle官网下载，下载地址是Java SE Downloads 。

下载jdk的方法

添加环境变量

然后PATH（【计算机】－－【属性】－－【高级系统设置】，然后在系统属性里选择【高级】－－【环境变量】）里添加安装的JDK目录下的bin文件夹路径名。如果是win7的话，记得用英文的分号;进行分割。

Spark的安装及配置安装与配置spark开发环境_hadoop_02

设置成功后，打开cmd，输入java -version，看是否能显示Java版本的相关信息信息。如果可以，说明成功。反之，咱懂得，咱继续加油吧！

Spark的安装及配置安装与配置spark开发环境_hadoop_03

三、Scala的安装与环境配置

百度搜索scala官网，下载scala并安装配置环境。

Spark的安装及配置安装与配置spark开发环境_环境配置_04

添加环境变量

安装成功后，默认会将Scala的bin目录添加到PATH系统变量中去（如果没有，和上面JDK安装步骤中类似，将Scala安装目录下的bin目录路径，添加到系统变量PATH中）。验证是否安装成功，打开cmd窗口，输入scala然后回车，如果能够正常进入到Scala的交互命令环境则表明安装成功。

Spark的安装及配置安装与配置spark开发环境_环境配置_05

Spark的安装及配置安装与配置spark开发环境_环境配置_06

备注：如果不能显示版本信息，未能进入Scala的交互命令行，通常有两种可能性：

1）系统变量PATH中没正确添加Scala安装目录下的bin文件夹路径名。
2）Scala未能够正确安装，重复上面的步骤即可。

四、Hadoop的安装与环境配置

清华镜像hadoop版本。下载后缀为tar.gz的文件。src版本是源码，如果需要对Hadoop进行更改或者想自己进行编译，可以下载对应src文件。

Spark的安装及配置安装与配置spark开发环境_hadoop_07

下载安装包后，进行解压，然后添加环境变量。添加变量名为HADOOP_HOME，值为Hadoop的解压目录。

然后再设置hadoop目录下的bin目录到系统变量的PATH下，如果已经添加了HADOOP_HOME系统变量，也可以用%HADOOP_HOME%\bin来指定bin文件夹路径名。

Spark的安装及配置安装与配置spark开发环境_hadoop_08

Spark的安装及配置安装与配置spark开发环境_环境配置_09

五、Spark的安装与环境配置

下载Spark。Spark官网进行下载（http://spark.apache.org/）或在国内镜像网站中下载：清华镜像（https://mirror.tuna.tsinghua.edu.cn/）、bit镜像（http://mirror.bit.edu.cn/web/）等）。

选择带有Hadoop版本的Spark。

因为hadoop我们下载的是2.7，所以我们需要选择基于hadoop2.7的版本。

Spark的安装及配置安装与配置spark开发环境_hadoop_10

下载后进行解压，并重命名为Spark（*：在Spark的文件目录路径名中，不要出现空格，类似于“Program Files”这样的文件夹名是不被允许的。咱最好在C盘或D盘新建一个Spark文件夹存放）

添加环境变量：

添加Spark的bin目录路径到系统变量PATH。添加变量名为SPARK_HOME，变量值为保存Spark的安装目录。

Spark的安装及配置安装与配置spark开发环境_Hadoop_11

Spark的安装及配置安装与配置spark开发环境_Hadoop_12

设置完系统变量后，在任意目录下的cmd命令行中，直接执行spark-shell命令，即可开启Spark的交互式命令行模式。

Spark的安装及配置安装与配置spark开发环境_Spark的安装及配置_13

以下错误，是由于先安装Spark，没有安装hadoop造成的。安装配置Hadoop后解决。

Spark的安装及配置安装与配置spark开发环境_hadoop_14

六、下载winutils.exe和hadoop.dll

到https://github.com/steveloughran/winutils下载。选择你安装的Hadoop版本号，然后进入到bin目录下，找到winutils.exe文件，下载方法是点击winutils.exe文件，进入之后在页面的右上方部分有一个Download按钮，下载即可。

将下载的winutils.exe和hadoop.dll放入到Hadoop的bin目录下。

七、Python下Spark开发环境搭建

将刚刚安装的Spark-python目录下的pysparks文件夹复制到anaconda\lib\site-packages。

Spark的安装及配置安装与配置spark开发环境_hadoop_15

Spark的安装及配置安装与配置spark开发环境_hadoop_16

安装Py4j

打开cmd或anaconda prompt，输入pip install py4j

Spark的安装及配置安装与配置spark开发环境_Spark的安装及配置_17

可能出现的问题：

CMD命令：不是内部或者外部命令也不是可运行的程序或批处理文件

解决方法：

在高级环境变量设置里，找到找到名为ComSpec的变量，查看是否是：“%SystemRoot%\system32\cmd.exe”，如果不是请更改。

然后找到名为PATH的变量，点击编辑：
%SystemRoot%\system32、%SystemRoot%、%SystemRoot%\System32\Wbem、C:\Windows\SysWOW64”
将其粘贴到PATH的后面。win7系统记得各个路径之间添加英文分号

修改后，点击确定，并重启cmd。这时候应该就可以了。

运行程序报错找不到SPARK_HOME

Spark的安装及配置安装与配置spark开发环境_环境配置_18

解决方法：

盲猜正确的解决方法应该是要在anaconda里边添加SPARK_HOME的地址。关于这个方法大家可以上网搜索一下关于“anaconda如何设置环境变量”。但是这一切都是盲猜哈，我自己也没进行尝试。

我自己的解决方法是：既然anaconda里边没有这个路径，那么我从cmd里启动jupyter notebook是不是可以呢？启动一下，发现嗯果然可以，程序可以正常运行。但是这样也太麻烦了吧，我还是想在桌面直接启动jupyter notebook，然后我就将刚刚启动的jupyter notebook和cmd都关了。重新启动anaconda和jupyter notebook，想着找一下如何在anaconda里设置环境变量。但是还没开始找，我就又不死心的重新运行了程序，发现emmmm？？可以了，莫名可以了，好奇怪！！！但是我好高兴！！！就自己也稀里糊涂的，但是它就可以了。难道可能和之前用cmd运行了一下，然后他们之间建立了某种关联有关系么？

Spark的安装及配置安装与配置spark开发环境_Hadoop_19

记得先安装Hadoop再安装Spark

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

上一篇：spark collect 内部排序 spark实现全局排序

下一篇：python宽带质量评估宽带质量测试

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯