1.下载spark-2.1.0-bin-hadoop2.7.tgz
以下是Spark的官方下载地址:
https://www.apache.org/dyn/closer.lua/spark/spark-2.3.0/spark-2.3.0-bin-hadoop2.7.tgz
2.解压文件到/soft目录下
$>tar -xzvf spark-2.3.0-bin-hadoop2.7.tgz -C /soft
3.创建软连接
创建软连接后,编译各种文件配置以及后期进行版本升级和替换非常方便。
$>cd /soft
$>ln -s spark-2.3.0-bin-hadoop2.7 spark
4.配置环境变量
编辑/etc/profile环境变量文件:
$>sudo nano /etc/profile
在文件末尾添加如下内容:
...
SPARK_HOME=/soft/spark
PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin
注意:将Spark的bin目录和sbin目录都添加到环境变量path中,而且Linux使用“:”作为分隔符。
5.环境变量生效
$>source /etc/profile
6.进入Spark-shell命令行
$>/soft/spark/spark-shell
#进入scala命令提示符
$scala>
7.体验Spark-shell
因为Spark使用的scala语言,因此同Scala的使用完全一致。
$scala>1 + 1
#输出结果