pyspark包版本

转载

killads 2024-10-29 19:20:31

文章标签 pyspark包版本 spark 大数据 SPARK jar 文章分类 Spark 大数据

Spark on YARN

属性配置和服务启动

将Spark Application提交运行到YARN集群上，至关重要，企业中大多数都是运行在YANR上
文档：http://spark.apache.org/docs/2.4.5/running-on-yarn.html

当Spark Application运行到YARN上时，在提交应用时指定master为yarn即可，同时需要告知YARN集群配置信息（比如ResourceManager地址信息），此外需要监控Spark Application，配置历史服务器相关属性

在实际项目中，只需要配置：6.1.1 至 6.1.4即可，由于在虚拟机上测试，所以配置6.1.5解除资源检查限制。

提交应用

先将圆周率PI程序提交运行在YARN上，命令如下：

SPARK_HOME=/export/server/spark
${SPARK_HOME}/bin/spark-submit \
--master yarn \
--class org.apache.spark.examples.SparkPi \
${SPARK_HOME}/examples/jars/spark-examples_2.11-2.4.5.jar \
10

运行完成在YARN 监控页面截图如下

pyspark包版本_SPARK

设置资源信息，提交运行WordCount程序至YARN上，命令如下

SPARK_HOME=/export/server/spark
${SPARK_HOME}/bin/spark-submit \
--master yarn \
--driver-memory 512m \
--executor-memory 512m \
--executor-cores 1 \
--num-executors 2 \
--queue default \
--class cn.itcast.spark.submit.SparkSubmit \
hdfs://node1.itcast.cn:8020/spark/apps/spark-day02_2.11-1.0.0.jar \
/datas/wordcount.data /datas/swcy-output

当WordCount应用运行YARN上完成以后，从8080 WEB UI页面点击应用历史服务连接，查看应用运行状态信息。

DeployMode两种模式区别

Spark Application提交运行时部署模式Deploy Mode，表示的是Driver Program运行的地方，要么是提交应用的Client：client，要么是集群中从节点（Standalone：Worker，YARN：NodeManager）：cluster。

pyspark包版本_spark_02

client 模式

默认DeployMode为Client，表示应用Driver Program运行在提交应用Client主机上（启动JVM Process进程），示意图如下：

pyspark包版本_jar_03

假设运行圆周率PI程序，采用client模式，命令如下：

SPARK_HOME=/export/server/spark
${SPARK_HOME}/bin/spark-submit \
--master spark://node1.itcast.cn:7077,node2.itcast.cn:7077 \
--deploy-mode client \
--driver-memory 512m \
--executor-memory 512m \
--executor-cores 1 \
--total-executor-cores 2 \
--class org.apache.spark.examples.SparkPi \
${SPARK_HOME}/examples/jars/spark-examples_2.11-2.4.5.jar \
10

cluster 模式

如果采用cluster模式运行应用，应用Driver Program运行在集群从节点Worker某台机器上。

pyspark包版本_SPARK_04

假设运行圆周率PI程序，采用cluster模式，命令如下：

SPARK_HOME=/export/server/spark
${SPARK_HOME}/bin/spark-submit \
--master spark://node1.itcast.cn:7077,node2.itcast.cn:7077 \
--deploy-mode cluster \
--supervise \
--driver-memory 512m \
--executor-memory 512m \
--executor-cores 1 \
--total-executor-cores 2 \
--class org.apache.spark.examples.SparkPi \
${SPARK_HOME}/examples/jars/spark-examples_2.11-2.4.5.jar \
10

YARN Client 模式

当应用运行YARN上时，有2部分组成：
AppMaster，应用管理者，申请资源和调度Job执行
Process，运行在NodeManager上进程，运行Task任务
Spark 应用运行集群上时，也有2部分组成：
Driver Program，应用管理者，申请资源运行Executors和调度Job执行
Executors，运行JVM进程，其中执行Task任务和缓存数据

YARN Client 模式

当Spark 运行在YARN集群时，采用client DeployMode时，有如下三个进程：
AppMaster，申请资源，运行Executors
Driver Program，调度Job执行和监控
Executors，运行JVM进程，其中执行Task任务和缓存数据

YARN Cluster 模式

当Spark 运行在YARN集群时，采用clusterDeployMode时，有如下2个进程：
Driver Program（AppMaster），既进行资源申请，又进行Job调度
Executors，运行JVM进程，其中执行Task任务和缓存数据

所以Spark Application运行在YARN上时，采用不同DeployMode时架构不一样，企业实际生产环境还是以cluster模式为主，client模式用于开发测试，两者的区别面试中常问。

在YARN Client模式下，Driver在任务提交的本地机器上运行，示意图如下：

pyspark包版本_spark_05

采用yarn-client方式运行词频统计WordCount程序

/export/server/spark/bin/spark-submit \
--master yarn \
--deploy-mode client \
--driver-memory 512m \
--executor-memory 512m \
--executor-cores 1 \
--num-executors 2 \
--queue default \
--class cn.itcast.spark.submit.SparkSubmit \
hdfs://node1.itcast.cn:8020/spark/apps/spark-day02_2.11-1.0.0.jar \
/datas/wordcount.data /datas/swcy-client

pyspark包版本_SPARK_06

YARN Cluster模式

以运行词频统计WordCount程序为例，提交命令如下：

/export/server/spark/bin/spark-submit \
--master yarn \
--deploy-mode cluster \
--driver-memory 512m \
--executor-memory 512m \
--executor-cores 1 \
--num-executors 2 \
--queue default \
--class cn.itcast.spark.submit.SparkSubmit \
hdfs://node1.itcast.cn:8020/spark/apps/spark-day02_2.11-1.0.0.jar \
/datas/wordcount.data /datas/swcy-cluster