spark actor模型 spark模式

转载

lazihuman 2024-06-24 08:53:55

文章标签 spark actor模型 spark hadoop jar 文章分类 Spark 大数据

文章目录

启动命令
命令行工具
退出本地模式
虚拟机中执行打包程序
独立部署（Standalone）模式
提交应用程序

经典案例
提交参数说明

配置历史服务
配置高可用（HA）
Yarn 模式
配置历史服务器
Windows 模式

3. 命令行提交应用

部署模式对比
端口号

启动命令

bin/spark-shell

启动之后
ip地址:4040访问spark

命令行工具

在解压缩文件夹下的 data 目录中，添加 word.txt 文件。在命令行工具中执行如下代码指
令（和 IDEA 中代码简化版一致）

sc.textFile("data/word.txt").flatMap(_.split(" ")).map((_,1)).reduceByKey(_+_).collect

spark actor模型 spark模式_spark

退出本地模式

按键Ctrl+C或输入Scala指令

:quit

虚拟机中执行打包程序

进入spark的目录，执行以下代码

bin/spark-submit \
--class org.apache.spark.examples.SparkPi \
--master local[2] \
./examples/jars/spark-examples_2.11-2.4.0.jar \
10

spark-examples_2.11-2.4.0.jar是spark自带的jar包

执行结果如下：

spark actor模型 spark模式_jar_02

独立部署（Standalone）模式

集群规划:
将spark-2.4.0-bin-hadoop2.7文件上传到hadoop102的指定目录

tar -zxvf spark-2.4.0-bin-hadoop2.7.tgz -C /opt/module/

修改spark文件夹名为spark-standalone

mv spark-2.4.0-bin-hadoop2.7/ spark-standalone

修改配置文件
进入解压缩后路径的 conf 目录，修改 slaves.template 文件名为 slaves

mv slaves.template slaves

修改 slaves 文件，添加 work 节点

hadoop102
hadoop103
hadoop104

修改 spark-env.sh.template 文件名为 spark-env.sh

mv spark-env.sh.template spark-env.sh

修改 spark-env.sh 文件，添加 JAVA_HOME 环境变量和集群对应的 master 节点

export JAVA_HOME=/opt/module/jdk1.8.0_144
SPARK_MASTER_HOST=hadoop102
SPARK_MASTER_PORT=7077

注意：7077 端口，相当于 hadoop3 内部通信的 8020 端口，此处的端口需要确认自己的 Hadoop 配置 5) 分发 spark-standalone 目录

xsync spark-standalone/

6）集群启动
在 spark-standalone目录下执行：

sbin/start-all.sh

spark actor模型 spark模式_jar_03

7）验证

查看 Master 资源监控 Web UI 界面: http://hadoop102:8080

提交应用程序

经典案例

bin/spark-submit \
--class org.apache.spark.examples.SparkPi \
--master spark://hadoop102:7077 \
./examples/jars/spark-examples_2.11-2.4.0.jar \
10

spark actor模型 spark模式_spark actor模型_04

–class 表示要执行程序的主类
–master spark://hadoop102:7077 独立部署模式，连接到 Spark 集群
3)spark-examples_2.11-2.4.0.jar 运行类所在的 jar 包
数字 10 表示程序的入口参数，用于设定当前应用的任务数量

提交参数说明

在提交应用中，一般会同时一些提交参数

bin/spark-submit \
--class <main-class>
--master <master-url> \
... # other options
<application-jar> \
[application-arguments]

spark actor模型 spark模式_jar_05

配置历史服务

由于 spark-shell 停止掉后，集群监控 hadoop102:4040 页面就看不到历史任务的运行情况，所以
开发时都配置历史服务器记录任务运行情况。

修改 spark-defaults.conf.template 文件名为 spark-defaults.conf

mv spark-defaults.conf.template spark-defaults.conf

修改 spark-default.conf 文件，配置日志存储路径

spark.eventLog.enabled true
spark.eventLog.dir hdfs://hadoop102:9000/directory

注意：需要启动 hadoop 集群，HDFS 上的 directory 目录需要提前存在。

sbin/start-dfs.sh
hadoop fs -mkdir /directory

修改 spark-env.sh 文件, 添加日志配置

export SPARK_HISTORY_OPTS="
-Dspark.history.ui.port=18080
-Dspark.history.fs.logDirectory=hdfs://hadoop102:9000/directory
-Dspark.history.retainedApplications=30"

⚫参数 1 含义：WEB UI 访问的端口号为 18080
⚫ 参数 2 含义：指定历史服务器日志存储路径
⚫ 参数 3 含义：指定保存 Application 历史记录的个数，如果超过这个值，旧的应用程序
信息将被删除，这个是内存中的应用数，而不是页面上显示的应用数。
4) 分发配置文件

xsync conf

重新启动集群和历史服务
进入spark-standalone目录执行：

sbin/start-all.sh
sbin/start-history-server.sh

6)通过网站查看历史服务

访问网站

http://192.168.152.102:18080/

配置高可用（HA）

所谓的高可用是因为当前集群中的 Master 节点只有一个，所以会存在单点故障问题。所以
为了解决单点故障问题，需要在集群中配置多个 Master 节点，一旦处于活动状态的 Master
发生故障时，由备用 Master 提供服务，保证作业可以继续执行。这里的高可用一般采用
Zookeeper 设置

集群规划

spark actor模型 spark模式_jar_07

1）停止spark集群

sbin/stop-all.sh

2）启动Zookeeper
在hadoop103上启动Zookeeper集群

cd /opt/module/zookeeper-3.4.10/
bin/zkServer.sh start
bin/zkServer.sh status

3）修改 spark-env.sh 文件添加如下配置

注释如下内容：
#SPARK_MASTER_HOST=hadoop102
#SPARK_MASTER_PORT=7077
添加如下内容:
#Master 监控页面默认访问端口为 8080，但是可能会和 Zookeeper 冲突，所以改成 8989，也可以自定义，访问 UI 监控页面时请注意
SPARK_MASTER_WEBUI_PORT=8989
export SPARK_DAEMON_JAVA_OPTS="
-Dspark.deploy.recoveryMode=ZOOKEEPER
-Dspark.deploy.zookeeper.url=hadoop102,hadoop103,hadoop104
-Dspark.deploy.zookeeper.dir=/spark"

分发配置文件

xsync conf/

5）启动hadoop

cd /opt/module/hadoop-2.7.2/sbin
start-dfs.sh

sbin/start-all.sh

7）验证

http://192.168.152.102:8989/

http://192.168.152.102:8989/

spark actor模型 spark模式_spark_08

8) 启动 hadoop103的单独 Master 节点，此时 hadoop103节点 Master 状态处于备用状态

cd /opt/module/spark-standalone/
sbin/start-master.sh

spark actor模型 spark模式_spark actor模型_09

spark actor模型 spark模式_jar_10

9）在hadoop103上提交应用到高可用集群

bin/spark-submit \
--class org.apache.spark.examples.SparkPi \
--master spark://hadoop102:7077,hadoop103:7077 \
./examples/jars/spark-examples_2.11-2.4.0.jar \
10

停止 hadoop102的 Master 资源监控进程

此时的结果是hadoop102无法访问网站

http://192.168.152.102:8989/

http://192.168.152.102:8989/ hadoop103上位

spark actor模型 spark模式_hadoop_11

Yarn 模式

独立部署（Standalone）模式由 Spark 自身提供计算资源，无需其他框架提供资源。这
种方式降低了和其他第三方资源框架的耦合性，独立性非常强。但是你也要记住，Spark 主
要是计算框架，而不是资源调度框架，所以本身提供的资源调度并不是它的强项，所以还是
和其他专业的资源调度框架集成会更靠谱一些。所以接下来我们来学习在强大的 Yarn 环境
下 Spark 是如何工作的（其实是因为在国内工作中，Yarn 使用的非常多）。

解压缩文件

tar -zxvf spark-2.4.0-bin-hadoop2.7.tgz -C /opt/module/
cd /opt/module/
mv spark-2.4.0-bin-hadoop2.7/ spark-yarn

修改配置文件
修改 hadoop 配置文件cd /opt/module/hadoop-2.7.2/etc/hadoop/yarn-site.xml, 并分发

cd /opt/module/hadoop-2.7.2/etc/hadoop/
vi yarn-site.xml

spark actor模型 spark模式_hadoop_12

<!-- Site specific YARN configuration properties -->
<!-- Reducer获取数据的方式 -->
<property>
                <name>yarn.nodemanager.aux-services</name>
                <value>mapreduce_shuffle</value>
</property>

<!-- 指定YARN的ResourceManager的地址 -->
<property>
                <name>yarn.resourcemanager.hostname</name>
                <value>hadoop103</value>
</property>

<!--是否启动一个线程检查每个任务正使用的物理内存量，如果任务超出分配值，则直接将其杀掉，默认
是 true -->
<property>
         <name>yarn.nodemanager.pmem-check-enabled</name>
         <value>false</value>
</property>
<!--是否启动一个线程检查每个任务正使用的虚拟内存量，如果任务超出分配值，则直接将其杀掉，默认
是 true -->
<property>
         <name>yarn.nodemanager.vmem-check-enabled</name>
         <value>false</value>
</property>

修改 conf/spark-env.sh，添加 JAVA_HOME 和 YARN_CONF_DIR 配置

cd conf/
mv spark-env.sh.template spark-env.sh
vi spark-env.sh

export JAVA_HOME=/opt/module/jdk1.8.0_144
YARN_CONF_DIR=/opt/module/hadoop-2.7.2/etc/hadoop/

启动 HDFS 以及 YARN 集群
在hadoop103上进入hadoop目录，执行

sbin/start-yarn.sh

执行以下代码

bin/spark-submit \
--class org.apache.spark.examples.SparkPi \
--master yarn \
--deploy-mode cluster \
./examples/jars/spark-examples_2.11-2.4.0.jar \
10

spark actor模型 spark模式_hadoop_13

5. 查看 http://hadoop103:8088 页面，点击 History，查看历史页面

http://hadoop103:8088

spark actor模型 spark模式_jar_14

配置历史服务器

修改 spark-defaults.conf.template 文件名为 spark-defaults.conf

mv spark-defaults.conf.template spark-defaults.conf

修改 spark-default.conf 文件，配置日志存储路径
添加如下：

spark.eventLog.enabled true
spark.eventLog.dir hdfs://hadoop102:9000/directory

注意：需要启动 hadoop 集群，HDFS 上的目录需要提前存在。
3) 修改 spark-env.sh 文件, 添加日志配置

export SPARK_HISTORY_OPTS="
-Dspark.history.ui.port=18080
-Dspark.history.fs.logDirectory=hdfs://hadoop102:9000/directory
-Dspark.history.retainedApplications=30"

⚫ 参数 1 含义：WEB UI 访问的端口号为 18080
⚫ 参数 2 含义：指定历史服务器日志存储路径
⚫ 参数 3 含义：指定保存 Application 历史记录的个数，如果超过这个值，旧的应用程序
信息将被删除，这个是内存中的应用数，而不是页面上显示的应用数。
4) 修改 spark-defaults.conf

spark.yarn.historyServer.address=hadoop102:18080
spark.history.ui.port=18080

5)重新提交任务

bin/spark-submit \
--class org.apache.spark.examples.SparkPi \
--master yarn \
--deploy-mode client \
./examples/jars/spark-examples_2.11-2.4.0.jar \
10

6）查看

http://192.168.152.103:8088/cluster

spark actor模型 spark模式_spark_15

Windows 模式

将spark-2.4.0-bin-hadoop2.7解压到本地文件夹
配置环境变量

SPARK_HOME
E:\spark\spark-2.4.0-bin-hadoop2.7

在PATH下添加

%SPARK_HOME%\bin

spark actor模型 spark模式_spark actor模型_16

3. 启动spark

win+r–》cmd进入dos界面

然后输入spark-shell

spark actor模型 spark模式_spark_17

案例1
在spark的安装目录输入cmd,进入spark-shell
在 bin 目录中创建 input 目录，并添加 word.txt 文件, 在命令行中输入脚本代码

输入以下代码

sc.textFile("input/word.txt").flatMap(_.split(" ")).map((_,1)).reduceByKey(_+_).collect

spark actor模型 spark模式_hadoop_18

3. 命令行提交应用

在DOS命令窗口执行提交命令
注意在spark的bin目录下执行

spark-submit --class org.apache.spark.examples.SparkPi --master local[2] ../examples/jars/spark-examples_2.11-2.4.0.jar 10

spark actor模型 spark模式_jar_19

部署模式对比

spark actor模型 spark模式_spark actor模型_20

端口号

➢ Spark 查看当前 Spark-shell 运行任务情况端口号：4040（计算）
➢ Spark Master 内部通信服务端口号：7077
➢ Standalone 模式下，Spark Master Web 端口号：8080（资源）
➢ Spark 历史服务器端口号：18080
➢ Hadoop YARN 任务运行情况查看端口号：8088

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

上一篇：docker容器的网络被误删除 docker容器没网

下一篇：redis和jedis版本号 jedis与redis对应版本

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯