❝ spark是大数据计算引擎,拥有Spark SQL、Spark Streaming、MLlib和GraphX四个模块。并且spark有R、python的调用接口,在R中可以用SparkR包操作spark,在python中可以使用pyspark模块操作spark。本文介绍spark在window环境下的安装。

0 环境

先给出安装好后的各个软件版本:

  • win10 64bit
  • java 1.8.0
  • scala 2.12.8
  • hadoop 2.7.1
  • spark 2.4.1

1 java安装

下载

spark依赖java,首先电脑中必须安装java。

地址:https://www.oracle.com/java/technologies/javase-jdk8-downloads.html


windows安装spark环境 安装spark之前需要安装什么_java


根据系统下载对应的jdk,下载后双击exe文件进行安装,可选择安装位置。

环境变量配置

依次点击我的电脑 ->属性->高级系统设置->环境变量,在系统变量选项卡中,新建一个系统变量,如下,变量名为JAVA_HOME,变量值为本地安装java的路径。


windows安装spark环境 安装spark之前需要安装什么_spark_02


添加好JAVA_HOME后,需要为Path变量增加值,选择Path变量(同样在系统变量中),点击编辑,弹出如下弹窗,新建两个值,分别为%JAVA_HOME%bin%JAVA_HOME%jrebin


windows安装spark环境 安装spark之前需要安装什么_spark_03


添加好后,确定、保存。

测试

环境变量配置好后,测试java是否安装成功,win+R打开运行对话框,输入cmd命令进入命令行窗口,输入java -version查看java版本,有输出则说明java安装成功。


windows安装spark环境 安装spark之前需要安装什么_spark安装_04


2 scala 安装

下载

spark是由scala语言编写的,需要安装scala。

地址:https://www.scala-lang.org/download/


windows安装spark环境 安装spark之前需要安装什么_spark安装_05


根据系统下载对应的版本,进行安装,安装位置可自行选择。

环境变量配置

同样,在系统变量的Path中,增加一个值,为scala的安装路径。


windows安装spark环境 安装spark之前需要安装什么_系统变量_06


测试

同样,打开命令行窗口,输入scala,出现如下界面表示安装成功。


windows安装spark环境 安装spark之前需要安装什么_系统变量_07


3 hadoop安装

下载

地址:http://hadoop.apache.org/releases.html

下载,安装到本地。

「需要注意的是hadoop的安装路径中不要有空格」,例如不要放在Program Files文件夹下。


windows安装spark环境 安装spark之前需要安装什么_spark_08


环境变量配置

新增HADOOP_HOME系统变量,值为本地hadoop安装路径。


windows安装spark环境 安装spark之前需要安装什么_spark安装_09


增加Path系统变量的值,为%HADOOP_HOME%bin


windows安装spark环境 安装spark之前需要安装什么_spark安装_10


4 spark安装

下载

下载地址:http://spark.apache.org/downloads.html

下载,然后本地安装。


windows安装spark环境 安装spark之前需要安装什么_spark_11


「需要注意的是spark版本需要和hadoop版本对应」,如界面所示的spark 3.0.0对应hadoop 2.7。

环境变量配置

新增SPARK_HOME系统变量,值为本地spark安装路径。


windows安装spark环境 安装spark之前需要安装什么_spark安装_12


增加Path系统变量的值,为%SPARK_HOME%bin


windows安装spark环境 安装spark之前需要安装什么_spark_13


测试

在命令行窗口,输入spark-shell,出现如下界面,表示spark安装成功。


windows安装spark环境 安装spark之前需要安装什么_spark安装_14


spark window单机版安装成功!单机版可以用来学习spark的基础使用,python用户可以用pyspark模块使用spark,R用于可以用SparkR包使用spark。