hadoop spark集群搭建搭建spark集群环境

转载

gulaotou 2023-07-25 00:21:02

文章标签 hadoop spark集群搭建 spark集群搭建 spark hadoop vim 文章分类 Hadoop 大数据

Spark是通用的基于内存计算的大数据框架，可以和hadoop生态系统很好的兼容，以下来部署Spark集群

集群环境：3节点 Master:bigdata1 Slaves:bigdata2,bigdata3

Master负责任务的分发，与集群状态的显示

Slaves运行具体的Worker任务，最后交由Executor执行任务代码

集群搭建之前，必须满足如下条件：

1、集群主机名和hosts文件映射一一对应

2、集群ssh免密登录配置

3、集群每个节点防火墙关闭

4、JDK正确安装

5、Scala正确安装

6、Hadoop集群安装，因为Spark存储层要用到HDFS，所以应该至少保证HDFS服务的正常运行，hadoop集群可以在yarn上，也可以由zookeeper协调，这个都没问题，最重要的是hadoop集群能正常运行

然后可以开始安装Spark，Spark官方网站是：http://spark.apache.org/，直接去官方网站下载spark安装包即可，这里安装的是1.x的最新版1.6.2，2.0是刚出来，暂时没有使用，包名为：spark-1.6.2-bin-hadoop2.6.tgz 这里已经安装的hadoop版本为hadoop 2.6.0，下载之后上传至服务器准备安装

在bigdata1 Master节点执行如下命令解压，目录可以自定义，这里安装位置是/bigdata/spark

配置文件目录在安装目录下的conf下，然后从默认模板中拷贝出要编辑的配置文件：

网上说的可以添加spark到环境变量中，这个是为了方便启动和调试，是可选的，

执行 vim conf/slaves 配置运行Worker任务的节点，和hadoop的slaves配置类似，单机环境中默认或者改为本地主机名，这里是bigdata2,bigdata3

hadoop spark集群搭建搭建spark集群环境_hadoop