使用 DolphinScheduler 执行 Yarn 任务的指南
DolphinScheduler 是一个优秀的分布式工作流调度系统,能够用来调度和管理大数据任务。本文将为新手提供详细步骤,教你如何通过 DolphinScheduler 来执行 Yarn 任务。
流程概述
以下是操作流程的简要概述:
步骤 | 描述 |
---|---|
1 | 安装并配置 DolphinScheduler |
2 | 创建新的工作流 |
3 | 添加 Yarn 任务节点 |
4 | 配置任务参数并保存 |
5 | 启动工作流并监控任务 |
步骤详解
1. 安装并配置 DolphinScheduler
你需要在服务器上安装 DolphinScheduler,具体步骤如下:
# 下载 DolphinScheduler
git clone
# 进入目录
cd dolphinscheduler
# 使用 Maven 构建项目
mvn clean package -Dmaven.test.skip=true
这段代码用于下载 DolphinScheduler 并使用 Maven 进行构建,确保项目无误后,你可以进行安装。
2. 创建新的工作流
登录 DolphinScheduler 的 Web UI,创建一个新的工作流。
- 在页面上点击“工作流”。
- 点击“创建”并填写工作流名称和描述。
3. 添加 Yarn 任务节点
在工作流中,你需要添加 Yarn 任务节点。
- 选择工作流编辑器,拖拽“Yarn”任务图标到画布上。
- 单击任务节点,填写任务信息。
在填入 Yarn 任务的信息时,你需要设置以下参数:
- 主类:要执行的 Java 主类。
- classpath:类路径。
- 文件路径:你要执行的 jar 文件在 HDFS 中的路径。
4. 配置任务参数并保存
Yarn 任务的配置代码如下:
{
"appName": "dolphin-job",
"mainClass": "com.example.MainClass", // 你的主类
"jarPath": "hdfs://path/to/your/jar", // jar 文件路径
"args": ["arg1", "arg2"] // 任务参数
}
请替换 mainClass
、jarPath
和 args
中的内容为你实际的参数。
最后,确保点击“保存”来保存你的工作流。
5. 启动工作流并监控任务
返回工作流主界面,点击你刚才创建的工作流,然后选择“启动”。任务会进入运行状态。
通过监控界面,你可以观察任务的运行状态及日志。
# 查看任务日志
curl http://<dolphinscheduler-url>/log/<task_id>
将 <task_id>
替换为你任务的 ID,以查看对应的日志。
甘特图
以下是通过神奇的 Mermaid 语法构建的甘特图:
gantt
title DolphinScheduler 执行 Yarn 任务
dateFormat YYYY-MM-DD
section 安装 DolphinScheduler
下载 DolphinScheduler :done, des1, 2023-10-01, 1d
构建项目 :done, des2, 2023-10-02, 1d
section 创建工作流
创建工作流 :active, des3, 2023-10-03, 1d
section 添加 Yarn 任务
配置 Yarn 任务 : after des3, 1d
section 启动 & 监控任务
启动工作流 : 2023-10-05, 1d
监控任务 : 2023-10-06, 2d
序列图
以下是 Mermaid 语法构建的序列图:
sequenceDiagram
participant User
participant DolphinScheduler
participant Yarn
User->>DolphinScheduler: 创建工作流
DolphinScheduler->>User: 返回工作流 ID
User->>DolphinScheduler: 添加 Yarn 任务
DolphinScheduler->>Yarn: 启动任务
Yarn-->>DolphinScheduler: 返回任务状态
DolphinScheduler-->>User: 显示任务状态
结尾
通过以上步骤,你可以成功地利用 DolphinScheduler 执行 Yarn 任务。在实践中,你可能会遇到各种问题,建议参考 DolphinScheduler 的官方文档,了解更多关于任务管理、参数配置等功能。祝你在大数据的旅程中越走越远!