1.下载spark-2.1.0-bin-hadoop2.7.tgz

以下是Spark的官方下载地址:

https://www.apache.org/dyn/closer.lua/spark/spark-2.3.0/spark-2.3.0-bin-hadoop2.7.tgz

2.解压文件到/soft目录下

$>tar -xzvf spark-2.3.0-bin-hadoop2.7.tgz -C /soft

3.创建软连接

创建软连接后,编译各种文件配置以及后期进行版本升级和替换非常方便。

$>cd /soft

$>ln -s spark-2.3.0-bin-hadoop2.7 spark

4.配置环境变量

编辑/etc/profile环境变量文件:

$>sudo nano /etc/profile

在文件末尾添加如下内容:

...

SPARK_HOME=/soft/spark

PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin

注意:将Spark的bin目录和sbin目录都添加到环境变量path中,而且Linux使用“:”作为分隔符。

5.环境变量生效

$>source /etc/profile

6.进入Spark-shell命令行

$>/soft/spark/spark-shell

#进入scala命令提示符

$scala>

7.体验Spark-shell

因为Spark使用的scala语言,因此同Scala的使用完全一致。

$scala>1 + 1

#输出结果