使用 DolphinScheduler 执行 Yarn 任务的指南

DolphinScheduler 是一个优秀的分布式工作流调度系统,能够用来调度和管理大数据任务。本文将为新手提供详细步骤,教你如何通过 DolphinScheduler 来执行 Yarn 任务。

流程概述

以下是操作流程的简要概述:

步骤 描述
1 安装并配置 DolphinScheduler
2 创建新的工作流
3 添加 Yarn 任务节点
4 配置任务参数并保存
5 启动工作流并监控任务

步骤详解

1. 安装并配置 DolphinScheduler

你需要在服务器上安装 DolphinScheduler,具体步骤如下:

# 下载 DolphinScheduler
git clone 

# 进入目录
cd dolphinscheduler

# 使用 Maven 构建项目
mvn clean package -Dmaven.test.skip=true

这段代码用于下载 DolphinScheduler 并使用 Maven 进行构建,确保项目无误后,你可以进行安装。

2. 创建新的工作流

登录 DolphinScheduler 的 Web UI,创建一个新的工作流。

  1. 在页面上点击“工作流”。
  2. 点击“创建”并填写工作流名称和描述。

3. 添加 Yarn 任务节点

在工作流中,你需要添加 Yarn 任务节点。

  1. 选择工作流编辑器,拖拽“Yarn”任务图标到画布上。
  2. 单击任务节点,填写任务信息。

在填入 Yarn 任务的信息时,你需要设置以下参数:

  • 主类:要执行的 Java 主类。
  • classpath:类路径。
  • 文件路径:你要执行的 jar 文件在 HDFS 中的路径。

4. 配置任务参数并保存

Yarn 任务的配置代码如下:

{
  "appName": "dolphin-job",
  "mainClass": "com.example.MainClass", // 你的主类
  "jarPath": "hdfs://path/to/your/jar", // jar 文件路径
  "args": ["arg1", "arg2"] // 任务参数
}

请替换 mainClassjarPathargs 中的内容为你实际的参数。

最后,确保点击“保存”来保存你的工作流。

5. 启动工作流并监控任务

返回工作流主界面,点击你刚才创建的工作流,然后选择“启动”。任务会进入运行状态。

通过监控界面,你可以观察任务的运行状态及日志。

# 查看任务日志
curl http://<dolphinscheduler-url>/log/<task_id>

<task_id> 替换为你任务的 ID,以查看对应的日志。

甘特图

以下是通过神奇的 Mermaid 语法构建的甘特图:

gantt
    title DolphinScheduler 执行 Yarn 任务
    dateFormat  YYYY-MM-DD
    section 安装 DolphinScheduler
    下载 DolphinScheduler  :done,  des1, 2023-10-01, 1d
    构建项目               :done,  des2, 2023-10-02, 1d
    section 创建工作流
    创建工作流             :active,  des3, 2023-10-03, 1d
    section 添加 Yarn 任务
    配置 Yarn 任务         : after des3, 1d
    section 启动 & 监控任务
    启动工作流             : 2023-10-05, 1d
    监控任务               : 2023-10-06, 2d

序列图

以下是 Mermaid 语法构建的序列图:

sequenceDiagram
    participant User
    participant DolphinScheduler
    participant Yarn
    User->>DolphinScheduler: 创建工作流
    DolphinScheduler->>User: 返回工作流 ID
    User->>DolphinScheduler: 添加 Yarn 任务
    DolphinScheduler->>Yarn: 启动任务
    Yarn-->>DolphinScheduler: 返回任务状态
    DolphinScheduler-->>User: 显示任务状态

结尾

通过以上步骤,你可以成功地利用 DolphinScheduler 执行 Yarn 任务。在实践中,你可能会遇到各种问题,建议参考 DolphinScheduler 的官方文档,了解更多关于任务管理、参数配置等功能。祝你在大数据的旅程中越走越远!