Centos搭建spark
一、spark介绍 二、spark安装前提
搭建spark环境前,需要搭建的环境有:
- JDK8
- zookeeper
- hadoop Centos 搭建Hadoop
- scala scalaScala安装后,在IDEA中配置
节点名称 | IP | zookeeper | Master | Worker |
---|---|---|---|---|
alary001 | 192.168.xx.x1 | Zookeeper | Master | |
alary002 | 192.168.xx.x2 | Zookeeper | worker | |
alary003 | 192.168.xx.x3 | Zookeeper | worker |
然后上传至master服务器的/usr/local/目录下
rz spark-2.4.3-bin-hadoop2.7
解压:
tar -zxvf spark-2.4.3-bin-hadoop2.7
重命名:
mv spark-2.4.3-bin-hadoop2.7 spark
五、修改spark环境变量
vi ~/.bashrc
export SPARK_HOME=/usr/local/spark
export PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin
六、修改spark-env.sh
进入到spark配置文件目录:
cd /usr/local/spark/conf
复制spark-env.sh.template并重命名为spark-env.sh:
cp spark-env.sh.template spark-env.sh
vi spark-env.sh
#指定默认master的ip或主机名
export SPARK_MASTER_HOST=node21
#指定maaster提交任务的默认端口为7077
export SPARK_MASTER_PORT=7077
#指定masster节点的webui端口
export SPARK_MASTER_WEBUI_PORT=8080
#每个worker从节点能够支配的内存数
export SPARK_WORKER_MEMORY=1g
#允许Spark应用程序在计算机上使用的核心总数(默认值:所有可用核心)
export SPARK_WORKER_CORES=1
#每个worker从节点的实例(可选配置)
export SPARK_WORKER_INSTANCES=1
#指向包含Hadoop集群的(客户端)配置文件的目录,运行在Yarn上配置此项
export HADOOP_CONF_DIR=/usr/local/hadoop/etc/hadoop
#指定整个集群状态是通过zookeeper来维护的,包括集群恢复
export SPARK_DAEMON_JAVA_OPTS="
-Dspark.deploy.recoveryMode=ZOOKEEPER
-Dspark.deploy.zookeeper.url=alary001:2181,alary002:2181,alary003:2181
-Dspark.deploy.zookeeper.dir=/spark"
七、修改slaves
复制slaves.template成slaves,并修改配置内容
cp slaves.template slaves
vi slaves
修改从节点
alary001
alary002
八、将安装包分发给其他节点
scp -r spark alary002:/usr/local/
scp -r spark alary003:/usr/local/
修改alary002节点上conf/spark-env.sh配置的MasterIP为SPARK_MASTER_IP=alary002
九、启动spark集群- 在spark目录下的sbin目录
- 执行./start-all.sh
- 使用jps和8080端口,检查集群是否启动成功
- 进入到spark-shell查看是否正常