CDH集群中部署spark

原创

mob649e816a3664 2025-01-09 11:54:15 ©著作权

文章标签 spark bash SPARK 文章分类 Spark 大数据

©著作权归作者所有：来自51CTO博客作者mob649e816a3664的原创作品，请联系作者获取转载授权，否则将追究法律责任

在CDH集群中部署Spark

Apache Spark 是一个快速、通用的集群计算系统，因其高效的数据处理能力而受到广泛使用。将Spark部署在Cloudera的CDH（Cloudera Distribution of Hadoop）集群中，使得数据分析和机器学习任务能够更高效地执行。本文将简要介绍如何在CDH集群上部署Spark，并提供代码示例。

部署前准备

在开始之前，确保你的CDH集群已经成功安装并运行。你需要具备以下条件：

Hadoop集群：确保你的集群中已经安装了CDH的Hadoop组件。
网络设置：所有节点之间能够相互通信。
JDK安装：确保每个节点上都安装了Java Development Kit (JDK)。
Spark安装包：下载合适版本的Spark。你可以从[Apache Spark官网](

Spark安装步骤

上传Spark安装包：将下载好的Spark安装包上传到集群中的某个节点。

scp spark-3.1.2-bin-hadoop3.2.tgz user@node1:/path/to/directory

解压安装包：

tar -zxvf spark-3.1.2-bin-hadoop3.2.tgz

配置环境变量：在每个节点的 ~/.bashrc 或 ~/.profile 文件中添加Spark环境变量。

export SPARK_HOME=/path/to/spark-3.1.2-bin-hadoop3.2
export PATH=$SPARK_HOME/bin:$PATH

加载环境变量：

source ~/.bashrc

配置Spark：在 conf 目录下，复制 spark-defaults.conf.template 为 spark-defaults.conf，并根据需要进行编辑，设置如下参数：

spark.master yarn
spark.submit.deployMode client

启动Spark集群

在完成配置后，可以启动Spark集群。使用以下命令启动Spark：

$SPARK_HOME/sbin/start-all.sh

验证集群状态

要验证Spark集群是否成功启动，可以访问Web UI，通常情况下，Spark的Web UI位于 http://<master-node>:8080。

编写并提交Spark作业

下面是一个简单的Spark程序示例，它读取一个文本文件并计算出每个单词的出现次数。

from pyspark import SparkContext

sc = SparkContext("spark://<master-node>:7077", "WordCount")

# 读取文本文件
text_file = sc.textFile("hdfs:///path/to/your/textfile.txt")

# 计算单词频率
word_count = text_file.flatMap(lambda line: line.split(" ")) \
                      .map(lambda word: (word, 1)) \
                      .reduceByKey(lambda a, b: a + b)

# 输出结果
for word, count in word_count.collect():
    print(f"{word}: {count}")

提交Spark作业的命令：

$SPARK_HOME/bin/spark-submit --master yarn your_script.py

序列图表示Spark作业流程

以下是描述Spark作业提交与执行流程的序列图：

sequenceDiagram
    participant User
    participant SparkSubmit
    participant YARN
    participant Spark

    User->>SparkSubmit: 提交作业
    SparkSubmit->>YARN: 请求资源
    YARN->>SparkSubmit: 返回资源
    SparkSubmit->>Spark: 启动Executor
    Spark->>YARN: 执行作业
    Spark->>User: 返回结果