(作者:陈玓玏)
只学习spark,还不学分布式的时候,可以先单机装spark,这时候不需要用到hadoop的,但是仍然需要java环境,所以要先安装java的jdk。

1、 下载并安装java jdk:

http://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html 地址,下载

liunx 脚本执行spark shell linux怎么启动spark_Spark


一样的位置,但现在的版本已经是191了。下载前记得在图中大标题下面先点击accept,否则下载会失败。

下载好之后,放到一个文件夹下,我是在华为云上自己建了一个文件。然后把压缩包放到这个文件夹下解压。

tar zxvf jdk-8u191-linux-x64.tar.gz

加压后,需要以下命令设置环境变量:

sudo vi /etc/profile

输入这个命令后就进入了文件,但是要按i或a命令才可以进入编辑模式,在文件最后加入以下内容:

#Java Env
export JAVA_HOME=/root/spark_local/jdk1.8.0_191
export CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar
export PATH=$PATH:$JAVA_HOME/bin

记得内容中的版本号以及路径。
最后按esc退出编辑模式,输入英文冒号再输入x保存退出,也就是这样

:x

让环境变量立即生效,通过以下命令:

source /etc/profile

输入以下命令查看java版本,如果输出版本了就是成功了。

java -version

2、 安装好java环境后,安装spark

因为是单机版,所以不需要安装先安装spark,直接上官网下载,地址:http://spark.apache.org/downloads.html ,没有hadoop环境就选择spark-2.3.2-bin-hadoop2.7就好了,点进下载链接后,里头有很多个镜像,选择一个能打开的下载就行。下载好之后,解压。

解压后输入命令ll,可以查看当前文件夹下所有的文件夹,如下:

liunx 脚本执行spark shell linux怎么启动spark_spark_02

3、 打开shell,使用spark:

cd到spark解压后的目录下,在我这里就是cd spark-2.3.2-bin-hadoop2.7,进入目录后,输入bin/spark-shell,这样就打开了scala shell,能够输入scala命令进行交互了。界面如下:

liunx 脚本执行spark shell linux怎么启动spark_数据挖掘_03

4. 退出spark:输入“:quit”。

5. 使用scala和python的小例子:

使用scala:在spark文件夹下输入:

bin/spark-shell
   var lines = sc.textFile(“README.md”)  --创建新的RDD,Resilient Distributed Dataset,弹性分布式数据集
   lines.count()  --输出长度
   使用python:在spark文件夹下输入:
   bin/pyspark   --如果配置了环境变量就可以直接用pyspark
   textFile = sc.textFile("README.md")   --创建新的RDD
  textFile.count()  --输出长度

6. spark2.0运行py文件的方法:

./bin/spark-submit filepath.py