Spark企业级环境搭建

原创

马超的博客 2022-11-28 15:42:04 ©著作权

文章标签 spark 企业级分布式 hadoop hdfs 文章分类 代码人生

©著作权归作者所有：来自51CTO博客作者马超的博客的原创作品，请联系作者获取转载授权，否则将追究法律责任

Chinahadoop-1节点安装Spark即可，在提交作业时由Yarn动态分发运行环境包括jar包、executor、driver等。不需要分布式部署Spark。
Spark企业级环境搭建_hadoop
下载hadoop压缩包之后解压hadoop后，配置文件在…/etc/hadoop目录下。
下载Spark压缩包之后，解压进入Spark目录，找到conf进行配置。

spark-env.sh（打通hadoop）
Spark企业级环境搭建_spark_02

spark-defaults.conf(查看historyserver的相关配置)
Spark企业级环境搭建_分布式_03
其中spark-assembly-1.6.2-hadoop2.6.0.jar接近200M，当你每次向Yarn提交作业的时候，每次都会上传到HDFS非常冗余，我们可以使用命令提前把jar上传到hdfs指定目录，如上图配置所示。，这样不用每次执行作业都向HDFS上传JAR。(配置项目spark.yarn.jar)可执行如下命令：

../hadoop-2.7.3/bin/hdfs dfs -put  /spark/...

启动Spark-history-server

sbin/start-history-server.sh

查看Spark-history-server
浏览器打开：//hostname:8080

查看作业运行日志（可以拉取driver端日志）：
配置hadoop-2.7.3/etc/hadoop/yarn-site.xml并分发到各个节点，重启yarn。

<name>yarn.log-aggregation-enable</name>
<value>true</value>

运行以下命令查看：

../hadoop-2.7.3/bin/yarn logs -applicationID application_1475114853744_0031

hdfs创建目录(-p表示递归的创建)：

hadoop-2.7.3/bin/hdfs dfs -mkdir -p /tmp/spark-events

上一篇：Spark源码走读概述

下一篇：从上往下打印二叉树

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯