在之前hadoop的基础上,进行Spark分布式集群:
(1)下载Spark集群需要的基本软件,本篇需要的是:Scala-2.10.4、spark-1.4.0-bin-hadoop
(2)安装Spark集群需要的每个软件
(3)启动并查看集群的状况
(4)t通过spark-shell测试spark工作
1.Spark集群需要的软件
在前面构建好的hadoop集群的基础上构建spark集群,这里需要的软件主要是:Scala-2.10.4、spark-1.4.0-bin-hadoop,从网上可以下载到这两个版本的安装包,以防万一,我这里提供下载地址:http://pan.baidu.com/s/1kVFtn9d 密码:6o36
2.安装Scala与Spark
2.1 安装scala
在Master节点上,打开终端执行命令:mkdir /usr/llib/scala,进入到下载文件目录下,解压scala压缩文件,执行类似于下图操作:
把解压的scala文件移动到创建的目录下!
修改环境变量,操作截图如下:
执行下图所示操作,使环境配置修改生效,并检测scala是否安装成功!
在命令行,直接输入scala进入scala命令交互界面,操作如下截图:
关于Slave1与Slave2的操作截图如下所示:
由于gedit无法使用,所以通过scp命令进行了复制!
2.2 安装Spark
进入到下载目录下,解压spark压缩文件:
打开终端,执行命令:mkdir /usr/local/spark,移动解压的spark文件,操作截图:
配置spark环境变量,操作截图如下:
执行如下命令,是修改配置生效:
进入到spark的conf目录下,把spark-env.sh.template文件拷贝到spark-env.sh,并进行编辑,操作截图如下:
spark-env.sh配置成功后!
接下来配置spark的conf下slaves文件,把Worker节点都添加进去,顺序执行操作截图如下:
上述是对于master节点的spark配置,关于slave1与slave2节点的操作截图如下:
3.启动并查看集群状况
在master节点上执行命令启动hadoop服务,启动之后,执行jps查看进程,三台机器截图如下:
hadoop启动成功后,在master节点上,进入到spark的sbin目录下,执行命令:./start-all.sh
会在主节点看到Master与Worker进程,在slave1与slave2看到worker进程!进入到spark集群的文本界面,访问:http://master:8080,看到三个worker,截图如下:
进入spark-shell,然后在http://master:4040,截图如下: