idea 直接提交spark on yarn程序

原创

mob64ca12daebd0 2024-09-22 05:37:33 ©著作权

文章标签 spark apache bash 文章分类 Spark 大数据

©著作权归作者所有：来自51CTO博客作者mob64ca12daebd0的原创作品，请联系作者获取转载授权，否则将追究法律责任

如何使用IDEA提交Spark on YARN程序的完整流程

在大数据领域，Apache Spark是一款强大的分布式计算框架，而YARN（Yet Another Resource Negotiator）则是其负责人之一，使得Spark可以在大规模数据集上运行。当我们想要在IDEA（IntelliJ IDEA）这个开发环境中提交Spark程序到YARN上时，需遵循一定的操作流程。以下是实现这一目标的步骤和详细指导。

流程概述

以下是实现从IDEA直接提交Spark on YARN程序的大致流程：

步骤	描述
1	配置IDEA环境
2	创建Spark项目
3	编写Spark程序代码
4	配置Spark提交脚本
5	提交Spark程序到YARN

旅程图

journey
    title 提交Spark程序的旅程
    section 配置环境
      在IDEA中创建项目: 5: 在IDEA中创建新项目并配置JDK
      安装Spark和Hadoop: 5: 确保Spark和Hadoop环境已正确安装
    section 编写代码
      编写Spark代码: 3: 完成Spark程序代码的编写
      配置依赖: 3: 在项目中添加Spark相关依赖
    section 提交程序
      创建提交脚本: 4: 编写提交到YARN的脚本
      提交程序: 5: 最后在IDEA中运行提交脚本

步骤详解

1. 配置IDEA环境

确保你的开发环境已经配置好，如安装JDK和Maven，并设置IDEA的环境变量，确保可以使用mvn命令。

2. 创建Spark项目

打开IDEA，选择“Create New Project”。
选择“Maven”，并选择合适的JDK版本。
在pom.xml中添加Spark的相关依赖：

<dependencies>
    <dependency>
        <groupId>org.apache.spark</groupId>
        <artifactId>spark-core_2.12</artifactId>
        <version>3.2.0</version>
    </dependency>
    <dependency>
        <groupId>org.apache.spark</groupId>
        <artifactId>spark-sql_2.12</artifactId>
        <version>3.2.0</version>
    </dependency>
</dependencies>

上述代码引入了Apache Spark的核心库和SQL模块，确保我们的Spark程序能够使用相关功能。

3. 编写Spark程序代码

在创建好的项目中，创建一个新的Java类，并编写以下Spark代码：

import org.apache.spark.sql.Dataset;
import org.apache.spark.sql.Row;
import org.apache.spark.sql.SparkSession;

public class SparkExample {
    public static void main(String[] args) {
        // 创建Spark会话
        SparkSession spark = SparkSession.builder()
                .appName("Spark YARN Example")
                .getOrCreate();

        // 从DataFrame读取数据
        Dataset<Row> df = spark.read().json("hdfs://path-to-your-input-data.json");
        
        // 打印DataFrame数据
        df.show();

        // 关闭Spark会话
        spark.stop();
    }
}

上述代码展示了如何创建一个Spark程序，读取JSON格式的数据并显示。

4. 配置Spark提交脚本

需要编写一个Shell脚本来提交Spark任务到YARN：

#!/bin/bash
spark-submit \
  --master yarn \                     # 指定Master为YARN
  --deploy-mode cluster \              # 指定集群模式
  --class SparkExample \               # 指明主类
  /path/to/your/jarfile.jar            # 指明你的JAR包路径

上述代码是提交Spark程序到YARN的脚本，其中需要替换为实际的JAR包路径。