Chinahadoop-1节点安装Spark即可,在提交作业时由Yarn动态分发运行环境包括jar包、executor、driver等。不需要分布式部署Spark。
下载hadoop压缩包之后解压hadoop后,配置文件在…/etc/hadoop目录下。
下载Spark压缩包之后,解压进入Spark目录,找到conf进行配置。
spark-env.sh(打通hadoop)
spark-defaults.conf(查看historyserver的相关配置)
其中spark-assembly-1.6.2-hadoop2.6.0.jar接近200M,当你每次向Yarn提交作业的时候,每次都会上传到HDFS非常冗余,我们可以使用命令提前把jar上传到hdfs指定目录,如上图配置所示。,这样不用每次执行作业都向HDFS上传JAR。(配置项目spark.yarn.jar)可执行如下命令:
../hadoop-2.7.3/bin/hdfs dfs -put /spark/...
启动Spark-history-server
sbin/start-history-server.sh
查看Spark-history-server
浏览器打开://hostname:8080
查看作业运行日志(可以拉取driver端日志):
配置hadoop-2.7.3/etc/hadoop/yarn-site.xml并分发到各个节点,重启yarn。
<name>yarn.log-aggregation-enable</name>
<value>true</value>
运行以下命令查看:
../hadoop-2.7.3/bin/yarn logs -applicationID application_1475114853744_0031
hdfs创建目录(-p表示递归的创建):
hadoop-2.7.3/bin/hdfs dfs -mkdir -p /tmp/spark-events