Chinahadoop-1节点安装Spark即可,在提交作业时由Yarn动态分发运行环境包括jar包、executor、driver等。不需要分布式部署Spark。
Spark企业级环境搭建_hadoop
下载hadoop压缩包之后解压hadoop后,配置文件在…/etc/hadoop目录下。
下载Spark压缩包之后,解压进入Spark目录,找到conf进行配置。

spark-env.sh(打通hadoop)
Spark企业级环境搭建_spark_02

spark-defaults.conf(查看historyserver的相关配置)
Spark企业级环境搭建_分布式_03
其中spark-assembly-1.6.2-hadoop2.6.0.jar接近200M,当你每次向Yarn提交作业的时候,每次都会上传到HDFS非常冗余,我们可以使用命令提前把jar上传到hdfs指定目录,如上图配置所示。,这样不用每次执行作业都向HDFS上传JAR。(配置项目spark.yarn.jar)可执行如下命令:

../hadoop-2.7.3/bin/hdfs dfs -put  /spark/...

启动Spark-history-server

sbin/start-history-server.sh

查看Spark-history-server
浏览器打开://hostname:8080

查看作业运行日志(可以拉取driver端日志):
配置hadoop-2.7.3/etc/hadoop/yarn-site.xml并分发到各个节点,重启yarn。

<name>yarn.log-aggregation-enable</name>
<value>true</value>

运行以下命令查看:

../hadoop-2.7.3/bin/yarn logs -applicationID application_1475114853744_0031

hdfs创建目录(-p表示递归的创建):

hadoop-2.7.3/bin/hdfs dfs -mkdir -p /tmp/spark-events