记一次基于Hadoop 3.3.0 安装部署 Spark 3.0.0 分布式集群

原创

34144451 2021-09-02 17:39:28 博主文章分类：Hadoop ©著作权

文章标签 spark hadoop 大数据经验分享 scala 文章分类 代码人生

©著作权归作者所有：来自51CTO博客作者34144451的原创作品，请联系作者获取转载授权，否则将追究法律责任

一、基本信息

官网
http://spark.apache.org/
Apache Spark 官方文档中文版（Spark 2.2.0）
http://spark.apachecn.org/#/
Spark 中文文档（Spark 2.2.0）
http://doc.codingdict.com/spark/1/
《Spark 官方文档》Spark快速入门（Spark 1.6.0）
http://ifeve.com/spark-quick-start/
官网实例
http://spark.apache.org/examples.html
官网新发布
http://spark.apache.org/news/spark-3-0-0-released.html
记一次基于Hadoop 3.3.0 安装部署 Spark 3.0.0 分布式集群_spark
官网下载页面
http://spark.apache.org/downloads.html

各个版本下载列表
https://archive.apache.org/dist/spark/
本文使用版本下载目录
https://archive.apache.org/dist/spark/spark-3.0.0/
Spark基本架构及原理
javascript:void(0)

二、基础集群环境

1、Centos7.x 安装OpenJDK1.8
javascript:void(0)
2、Centos7.x 配置 Scala2.12.12
javascript:void(0)
3、Centos7.x 安装部署 Hadoop 3.x HDFS基础环境
javascript:void(0)
4、Centos7.x 安装部署 Zookeeper 3.6.2 集群
javascript:void(0)
5、Centos7.x Hadoop 3.x 部署 YARN 集群
javascript:void(0)
6、Hadoop 3.x 集群 YARN 启动 timelineserver（ApplicationHistoryServer）
javascript:void(0)

三、安装、部署

1、下载文件 spark-3.0.0-bin-hadoop3.2.tgz

[root@master ~]# wget -P /usr/bigdata/ https://archive.apache.org/dist/spark/spark-3.0.0/spark-3.0.0-bin-hadoop3.2.tgz

记一次基于Hadoop 3.3.0 安装部署 Spark 3.0.0 分布式集群_spark_03
2、进入文件的下载目录

[root@master ~]# cd /usr/bigdata/

3、解压缩、查看文件

[root@master bigdata]# tar zxf spark-3.0.0-bin-hadoop3.2.tgz

记一次基于Hadoop 3.3.0 安装部署 Spark 3.0.0 分布式集群_scala_04
4、进入 spark 的配置文件目录

[root@master ~]# cd /usr/bigdata/spark-3.0.0-bin-hadoop3.2/conf/

记一次基于Hadoop 3.3.0 安装部署 Spark 3.0.0 分布式集群_大数据_05
5、复制、重命名配置文件 slaves.template

[root@master conf]# cp slaves.template slaves

6、编辑配置文件 slaves

[root@master conf]# vim slaves

7、编辑、写入内容配置子节点的主机名列表

slave1
slave2
slave3

记一次基于Hadoop 3.3.0 安装部署 Spark 3.0.0 分布式集群_spark_06
8、复制、重命名配置文件 spark-env.sh.template

[root@master conf]# cp spark-env.sh.template spark-env.sh

9、编辑配置文件

[root@master conf]# vim spark-env.sh

10、编辑内容

HADOOP_CONF_DIR=/usr/bigdata/hadoop-3.3.0/etc/hadoop/

记一次基于Hadoop 3.3.0 安装部署 Spark 3.0.0 分布式集群_经验分享_07
11、进入 spark 的 sbin 目录

[root@master ~]# cd /usr/bigdata/spark-3.0.0-bin-hadoop3.2/sbin/

12、编辑配置文件 spark-config.sh

[root@master sbin]# vim spark-config.sh

13、编辑内容

export JAVA_HOME="/usr/lib/jvm/java-1.8.0"

记一次基于Hadoop 3.3.0 安装部署 Spark 3.0.0 分布式集群_hadoop_08
14、把编辑、配置完毕的目录及文件发送给指定的 spark 的各个子节点

[root@master ~]# scp -r /usr/bigdata/spark-3.0.0-bin-hadoop3.2 root@slave1:/usr/bigdata/
[root@master ~]# scp -r /usr/bigdata/spark-3.0.0-bin-hadoop3.2 root@slave2:/usr/bigdata/
[root@master ~]# scp -r /usr/bigdata/spark-3.0.0-bin-hadoop3.2 root@slave3:/usr/bigdata/

15、启动 Hadoop 的 HDFS 服务

[root@master ~]# /usr/bigdata/hadoop-3.3.0/sbin/start-dfs.sh

16、启动 Zookeeper 集群

[root@slave1 ~]# /usr/bigdata/apache-zookeeper-3.6.2-bin/bin/zkServer.sh start
[root@slave2 ~]# /usr/bigdata/apache-zookeeper-3.6.2-bin/bin/zkServer.sh start
[root@slave3 ~]# /usr/bigdata/apache-zookeeper-3.6.2-bin/bin/zkServer.sh start

17、启动 YARN 的相关服务

[root@master ~]#  /usr/bigdata/hadoop-3.3.0/sbin/start-yarn.sh
[root@master ~]# /usr/bigdata/hadoop-3.3.0/sbin/yarn-daemon.sh start timelineserver

18、启动 jobhistoryserver

[root@master ~]# /usr/bigdata/hadoop-3.3.0/sbin/mr-jobhistory-daemon.sh start historyserver

19、进入 Spark 的 sbin 目录启动 spark

[root@master ~]# cd /usr/bigdata/spark-3.0.0-bin-hadoop3.2/sbin/

启动 spark

[root@master sbin]# ./start-all.sh

或

[root@master ~]# /usr/bigdata/spark-3.0.0-bin-hadoop3.2/sbin/start-all.sh

记一次基于Hadoop 3.3.0 安装部署 Spark 3.0.0 分布式集群_hadoop_09
20、查看各个节点服务的启动状态

[root@master ~]# jps
[root@slave1 ~]# jps
[root@slave2 ~]# jps
[root@slave3 ~]# jps

记一次基于Hadoop 3.3.0 安装部署 Spark 3.0.0 分布式集群_spark_10
21、各个节点服务启动及进程

[root@master ~]# netstat -lntp
[root@slave1 ~]# netstat -lntp
[root@slave2 ~]# netstat -lntp
[root@slave3 ~]# netstat -lntp

记一次基于Hadoop 3.3.0 安装部署 Spark 3.0.0 分布式集群_大数据_11
22、停止 Spark 服务

[root@master ~]# /usr/bigdata/spark-3.0.0-bin-hadoop3.2/sbin/stop-all.sh

记一次基于Hadoop 3.3.0 安装部署 Spark 3.0.0 分布式集群_hadoop_12

四、浏览器查看 Spark 的 Web UI

1、在浏览器地址栏录入 http://192.168.11.21:8080/
说明：192.168.11.21 是 master 节点的 IP ，Spark Web UI 的默认端口 8080 ，如需修改端口可更改其配置文件
记一次基于Hadoop 3.3.0 安装部署 Spark 3.0.0 分布式集群_hadoop_13
2、点击各个 Worker 查看各个节点的详情例如节点 slave1