(作者:陈玓玏)
只学习spark,还不学分布式的时候,可以先单机装spark,这时候不需要用到hadoop的,但是仍然需要java环境,所以要先安装java的jdk。
1、 下载并安装java jdk:
http://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html 地址,下载
一样的位置,但现在的版本已经是191了。下载前记得在图中大标题下面先点击accept,否则下载会失败。
下载好之后,放到一个文件夹下,我是在华为云上自己建了一个文件。然后把压缩包放到这个文件夹下解压。
tar zxvf jdk-8u191-linux-x64.tar.gz
加压后,需要以下命令设置环境变量:
sudo vi /etc/profile
输入这个命令后就进入了文件,但是要按i或a命令才可以进入编辑模式,在文件最后加入以下内容:
#Java Env
export JAVA_HOME=/root/spark_local/jdk1.8.0_191
export CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar
export PATH=$PATH:$JAVA_HOME/bin
记得内容中的版本号以及路径。
最后按esc退出编辑模式,输入英文冒号再输入x保存退出,也就是这样
:x
让环境变量立即生效,通过以下命令:
source /etc/profile
输入以下命令查看java版本,如果输出版本了就是成功了。
java -version
2、 安装好java环境后,安装spark
因为是单机版,所以不需要安装先安装spark,直接上官网下载,地址:http://spark.apache.org/downloads.html ,没有hadoop环境就选择spark-2.3.2-bin-hadoop2.7就好了,点进下载链接后,里头有很多个镜像,选择一个能打开的下载就行。下载好之后,解压。
解压后输入命令ll,可以查看当前文件夹下所有的文件夹,如下:
3、 打开shell,使用spark:
cd到spark解压后的目录下,在我这里就是cd spark-2.3.2-bin-hadoop2.7,进入目录后,输入bin/spark-shell,这样就打开了scala shell,能够输入scala命令进行交互了。界面如下:
4. 退出spark:输入“:quit”。
5. 使用scala和python的小例子:
使用scala:在spark文件夹下输入:
bin/spark-shell
var lines = sc.textFile(“README.md”) --创建新的RDD,Resilient Distributed Dataset,弹性分布式数据集
lines.count() --输出长度
使用python:在spark文件夹下输入:
bin/pyspark --如果配置了环境变量就可以直接用pyspark
textFile = sc.textFile("README.md") --创建新的RDD
textFile.count() --输出长度
6. spark2.0运行py文件的方法:
./bin/spark-submit filepath.py