一、安装Scala 
下载地址:http://www.scala-lang.org/download/all.html

windows下spark的安装与配置教程_hadoop

进入页面后选择一个Scala版本进行下载,我选择的是Scala2.12.0版本。特别注意的是看帖子又的说Scala版本与Spark版本之间是有一定关联的,比如说你的Scala版本是2.12.0,那么就应该下载Spark版本为从1.3.0到Spark 1.6.2之间的各个版本。这种说法不知道准不准确,但是还是注意一下比较好。 
Scala安装好之后呢,它会自动在环境变量PATH里面配置。我们不需要进行手动配置了。下面就打开cmd输入Scala看下安装后控制台的输出效果。 

windows下spark的安装与配置教程_spark_02

 

如果出现一下信息,那么就证明Scala已经安装成功了。 

需要注意的是:如果在控制台输入scala之后输出没有出现版本信息,那么就需要你手动替换掉安装Scala时自动配置的变量。

既然Scala已经安装成功了, 那么我们就可以继续安装我们的主角Spark了 
二、安装Spark 
同样的我会附上Spark下载地址:http://spark.apache.org/downloads.html 

windows下spark的安装与配置教程_hadoop_03

这里引用了别人的一张图片,因为公司网络有限制,导致访问页面布局错误,所以网上找了一张图片来给大家展示一下。

那么,当我们下载好之后,Spark是不需要进行安装的,直接解压到Spark目录,然后配置一下Path环境变量就可以了 

 

windows下spark的安装与配置教程_scala_04

 

我的Spark目录为E:\spark\bin 

下面我们来验证一下看spark是否能正常启动。 

在控制台输入一下命令:spark-shell 

注意spark-shell之间是没有空格的,千万不要输错了。 

情况看图片 

 

windows下spark的安装与配置教程_spark_05

 

到这里就说明我们的准备工作已经做完了吗?显然不是,虽然控制台已经输出了Spark信息,但是并不是已经完全ok的,等待10秒钟左右控制台会继续输出信息。如下 

 

windows下spark的安装与配置教程_hadoop_06

 

看到图中报错信息是不是快要崩溃了?别着急,听我慢慢道来 

这里主要是因为Spark是基于Hadoop的,所以这里也有必要配置一个Hadoop的运行环境。 

三、Hadoop下载 

地址:https://archive.apache.org/dist/hadoop/common/ 

进去之后尽量往下翻,越是下面的版本越新。 

 

windows下spark的安装与配置教程_scala_07

 

由于我们之前选择下载spark的时候是基于Hadoop2.6版本的,所以我这里选择的是hadoop2.6.4版本 

下载完毕后我们直接解压,解压完毕后开始设置我们的环境变量 

需要设置的变量有 

HADOOP_HOME:E:\hadoop-2.6.4 (解压目录) 

PATH:E:\hadoop-2.6.4\bin 

上诉内容都准备好之后再次重新打开控制台输入spark-shell如果还有以上错误日志,那么请找到你的hadoop\bin目录找下里面有没有winutils.exe文件,如果没有的话,我们需要去下载。 

winutils.exe下载地址https://github.com/steveloughran/winutils 

进入目录后找到你相应的hadoop目录–进入bin—找到winutils.exe文件下载。下载好之后我们把它放到E:\hadoop-2.6.4\bin 里面,确保该目录中有winutils.exe文件。

windows下spark的安装与配置教程_spark_08

那么下面就需要在控制台输入一下命令来修改权限

E:\hadoop-2.6.4\bin\winutils.exe chmod 777 /tmp/hive


注意该命令需要根据你实际的hadoop所在目录。 

好了,经过这么多的准备工作,我想我们的spark到此已经安装完毕了。下面我们重新打开一个控制台窗口输入spark-shell看下结果吧。 

 

windows下spark的安装与配置教程_hadoop_09

 

windows下spark的安装与配置教程_hadoop_10

 

 

如果你看到上诉两图所圈住的日志信息,那么,恭喜您,spark已经安装成功了!