文章目录

  • 第1章 DolphinScheduler简介
  • 1.1 DolphinScheduler概述
  • 1.2 DolphinScheduler核心架构
  • 第2章 DolphinScheduler部署说明
  • 2.1 软硬件环境要求
  • 2.1.1 操作系统版本要求
  • 2.1.2 服务器硬件要求
  • 2.2 部署模式
  • 2.2.1 单机模式
  • 2.2.2 伪集群模式
  • 2.2.3 集群模式
  • 第3章 DolphinScheduler集群模式部署
  • 3.1 集群规划
  • 3.2 前置准备工作
  • 3.3 解压DolphinScheduler安装包
  • 3.5 初始化数据库
  • 3.6 一键部署DolphinScheduler
  • 3.7 DolphinScheduler启停命令
  • 第4章 DolphinScheduler入门
  • 4.1 安全中心配置
  • 4 .1.1 租户管理
  • 4 .1.2 用户管理
  • 4 .1.3 告警组管理
  • 4 .1.4 告警实例管理
  • 4 .1.5 Worker分组管理
  • 4 .1.6 Yarn 队列管理
  • 4 .1.7 环境管理
  • 4 .1.8 令牌管理
  • 4 .1.9 授予权限
  • 4.2 项目管理
  • 4 .2.1 切换用户
  • 4 .2 . 2 创建项目
  • 4 .2.3 查看项目
  • 4 .3 工作流基础配置
  • 4 .3.1 工作流定义
  • 4 .3.2 提交执行工作流
  • 4 .3.2 查看工作流实例
  • 4 .3.3 查看任务实例
  • 第5章 DolphinScheduler进阶
  • 5.1 工作流传参
  • 5.1.1 内置参数
  • 5.1.2 全局参数
  • 5.1.3 本地参数
  • 5.1.4 参数传递
  • 5.1.5 参数优先级
  • 5.2 引用依赖资源
  • 5.3 数据源配置
  • 5.4 告警实例配置
  • 邮箱告警实例配置


第1章 DolphinScheduler简介

1.1 DolphinScheduler概述

Apache DolphinScheduler是一个分布式、易扩展的可视化DAG工作流任务调度平台。致力于解决数据处理流程中错综复杂的依赖关系,使调度系统在数据处理流程中开箱即用。

1.2 DolphinScheduler核心架构

DolphinScheduler的主要角色如下:
MasterServer采用分布式无中心设计理念,MasterServer主要负责 DAG 任务切分、任务提交、任务监控,并同时监听其它MasterServer和WorkerServer的健康状态。
WorkerServer也采用分布式无中心设计理念,WorkerServer主要负责任务的执行和提供日志服务。
ZooKeeper服务,系统中的MasterServer和WorkerServer节点都通过ZooKeeper来进行集群管理和容错。
Alert服务,提供告警相关服务。
API接口层,主要负责处理前端UI层的请求。
UI,系统的前端页面,提供系统的各种可视化操作界面。

dolphinscheduler PYTHON_HOME修改 dolphinscheduler安装部署_IP

第2章 DolphinScheduler部署说明

2.1 软硬件环境要求

2.1.1 操作系统版本要求

操作系统

版本

Red Hat Enterprise Linux

7.0 及以上

CentOS

7.0 及以上

Oracle Enterprise Linux

7.0 及以上

Ubuntu LTS

16.04 及以上

2.1.2 服务器硬件要求

CPU

内存

硬盘类型

网络

实例数量

4核+

8 GB+

SAS

千兆网卡

1+

2.2 部署模式

DolphinScheduler支持多种部署模式,包括单机模式(Standalone)、伪集群模式(Pseudo-Cluster)、集群模式(Cluster)等。

2.2.1 单机模式

单机模式(standalone)模式下,所有服务均集中于一个StandaloneServer进程中,并且其中内置了注册中心Zookeeper和数据库H2。只需配置JDK环境,就可一键启动DolphinScheduler,快速体验其功能。

2.2.2 伪集群模式

伪集群模式(Pseudo-Cluster)是在单台机器部署 DolphinScheduler 各项服务,该模式下master、worker、api server、logger server等服务都只在同一台机器上。Zookeeper和数据库需单独安装并进行相应配置。

2.2.3 集群模式

集群模式(Cluster)与伪集群模式的区别就是在多台机器部署 DolphinScheduler各项服务,并且可以配置多个Master及多个Worker。

第3章 DolphinScheduler集群模式部署

3.1 集群规划

集群模式下,可配置多个Master及多个Worker。通常可配置2~3个Master,若干个Worker。由于集群资源有限,此处配置一个Master,三个Worker,集群规划如下。

hadoop102

master、worker

hadoop103

worker

hadoop104

worker

3.2 前置准备工作

(1)三台节点均需部署JDK(1.8+),并配置相关环境变量。
(2)需部署数据库,支持MySQL(5.7+)或者PostgreSQL(8.2.15+)。如 MySQL 则需要 JDBC Driver 8.0.16。
(3)需部署Zookeeper(3.4.6+)。
(4)如果启用 HDFS 文件系统,则需要 Hadoop(2.6+)环境。
(5)三台节点均需安装进程管理工具包psmisc。

[atguigu@hadoop102 ~]$ sudo yum install -y psmisc
[atguigu@hadoop103 ~]$ sudo yum install -y psmisc
[atguigu@hadoop104 ~]$ sudo yum install -y psmisc

3.3 解压DolphinScheduler安装包

(1)上传DolphinScheduler安装包到hadoop102节点的/opt/software目录
(2)解压安装包到当前目录
注:解压目录并非最终的安装目录[atguigu@hadoop102 software]$ tar -zxvf apache-dolphinscheduler-2.0.3-bin
3.4 配置一键部署脚本
修改解压目录下的conf/config目录下的install_config.conf文件

[atguigu@hadoop102 apache-dolphinscheduler-2.0.3-bin]$ vim conf/config/install_config.conf

修改内容如下

#

# Licensed to the Apache Software Foundation (ASF) under one or more

# contributor license agreements. See the NOTICE file distributed with

# this work for additional information regarding copyright ownership.

# The ASF licenses this file to You under the Apache License, Version 2.0

# (the "License"); you may not use this file except in compliance with

# the License. You may obtain a copy of the License at

#

#   http://www.apache.org/licenses/LICENSE-2.0

#

# Unless required by applicable law or agreed to in writing, software

# distributed under the License is distributed on an "AS IS" BASIS,

# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.

# See the License for the specific language governing permissions and

# limitations under the License.

#

# ---------------------------------------------------------

# INSTALL MACHINE

# ---------------------------------------------------------

# A comma separated list of machine hostname or IP would be installed DolphinScheduler,

# including master, worker, api, alert. If you want to deploy in pseudo-distributed

# mode, just write a pseudo-distributed hostname

# Example for hostnames: ips="ds1,ds2,ds3,ds4,ds5", Example for IPs: ips="192.168.8.1,192.168.8.2,192.168.8.3,192.168.8.4,192.168.8.5"

ips="hadoop102,hadoop103,hadoop104" 

# 将要部署任一 DolphinScheduler 服务的服务器主机名或 ip 列表

# Port of SSH protocol, default value is 22. For now we only support same port in all `ips` machine

# modify it if you use different ssh port

sshPort="22"

# A comma separated list of machine hostname or IP would be installed Master server, it

# must be a subset of configuration `ips`.

# Example for hostnames: masters="ds1,ds2", Example for IPs: masters="192.168.8.1,192.168.8.2"

masters="hadoop102" 

# master 所在主机名列表,必须是 ips 的子集

# A comma separated list of machine <hostname>:<workerGroup> or <IP>:<workerGroup>.All hostname or IP must be a

# subset of configuration `ips`, And workerGroup have default value as `default`, but we recommend you declare behind the hosts

# Example for hostnames: workers="ds1:default,ds2:default,ds3:default", Example for IPs: workers="192.168.8.1:default,192.168.8.2:default,192.168.8.3:default"

workers="hadoop102:default,hadoop103:default,hadoop104:default" 

# worker主机名及队列,此处的 ip 必须在 ips 列表中

# A comma separated list of machine hostname or IP would be installed Alert server, it

# must be a subset of configuration `ips`.

# Example for hostname: alertServer="ds3", Example for IP: alertServer="192.168.8.3"

alertServer="hadoop102"

# 告警服务所在服务器主机名

# A comma separated list of machine hostname or IP would be installed API server, it

# must be a subset of configuration `ips`.

# Example for hostname: apiServers="ds1", Example for IP: apiServers="192.168.8.1"

apiServers="hadoop102"

# api服务所在服务器主机名

# A comma separated list of machine hostname or IP would be installed Python gateway server, it

# must be a subset of configuration `ips`.

# Example for hostname: pythonGatewayServers="ds1", Example for IP: pythonGatewayServers="192.168.8.1"

# pythonGatewayServers="ds1" 

# 不需要的配置项,可以保留默认值,也可以用 # 注释

# The directory to install DolphinScheduler for all machine we config above. It will automatically be created by `install.sh` script if not exists.

# Do not set this configuration same as the current path (pwd)

installPath="/opt/module/dolphinscheduler"

# DS 安装路径,如果不存在会创建

# The user to deploy DolphinScheduler for all machine we config above. For now user must create by yourself before running `install.sh`

# script. The user needs to have sudo privileges and permissions to operate hdfs. If hdfs is enabled than the root directory needs

# to be created by this user

deployUser="atguigu"

# 部署用户,任务执行服务是以 sudo -u {linux-user} 切换不同 Linux 用户的方式来实现多租户运行作业,因此该用户必须有免密的 sudo 权限。

# The directory to store local data for all machine we config above. Make sure user `deployUser` have permissions to read and write this directory.

dataBasedirPath="/tmp/dolphinscheduler"

# 前文配置的所有节点的本地数据存储路径,需要确保部署用户拥有该目录的读写权限

# ---------------------------------------------------------

# DolphinScheduler ENV

# ---------------------------------------------------------

# JAVA_HOME, we recommend use same JAVA_HOME in all machine you going to install DolphinScheduler

# and this configuration only support one parameter so far.

javaHome="/opt/module/jdk1.8.0_212"

# JAVA_HOME 路径

# DolphinScheduler API service port, also this is your DolphinScheduler UI component's URL port, default value is 12345

apiServerPort="12345"

# ---------------------------------------------------------

# Database

# NOTICE: If database value has special characters, such as `.*[]^${}\+?|()@#&`, Please add prefix `\` for escaping.

# ---------------------------------------------------------

# The type for the metadata database

# Supported values: ``postgresql``, ``mysql`, `h2``.

# 注意:数据库相关配置的 value 必须加引号,否则配置无法生效

DATABASE_TYPE="mysql"

# 数据库类型

# Spring datasource url, following <HOST>:<PORT>/<database>?<parameter> format, If you using mysql, you could use jdbc

# string jdbc:mysql://127.0.0.1:3306/dolphinscheduler?useUnicode=true&characterEncoding=UTF-8 as example

# SPRING_DATASOURCE_URL=${SPRING_DATASOURCE_URL:-"jdbc:h2:mem:dolphinscheduler;MODE=MySQL;DB_CLOSE_DELAY=-1;DATABASE_TO_LOWER=true"}

SPRING_DATASOURCE_URL="jdbc:mysql://hadoop102:3306/dolphinscheduler?useUnicode=true&characterEncoding=UTF-8"

# 数据库 URL

# Spring datasource username

# SPRING_DATASOURCE_USERNAME=${SPRING_DATASOURCE_USERNAME:-"sa"}

SPRING_DATASOURCE_USERNAME="dolphinscheduler"

# 数据库用户名

# Spring datasource password

# SPRING_DATASOURCE_PASSWORD=${SPRING_DATASOURCE_PASSWORD:-""}

SPRING_DATASOURCE_PASSWORD="dolphinscheduler"

# 数据库密码

# ---------------------------------------------------------

# Registry Server

# ---------------------------------------------------------

# Registry Server plugin name, should be a substring of `registryPluginDir`, DolphinScheduler use this for verifying configuration consistency

registryPluginName="zookeeper"

# 注册中心插件名称,DS 通过注册中心来确保集群配置的一致性

# Registry Server address.

registryServers="hadoop102:2181,hadoop103:2181,hadoop104:2181"

# 注册中心地址,即 Zookeeper 集群的地址

# Registry Namespace

registryNamespace="dolphinscheduler"

# DS 在 Zookeeper 的结点名称

# ---------------------------------------------------------

# Worker Task Server

# ---------------------------------------------------------

# Worker Task Server plugin dir. DolphinScheduler will find and load the worker task plugin jar package from this dir.

taskPluginDir="lib/plugin/task"

# resource storage type: HDFS, S3, NONE

resourceStorageType="HDFS"	

# 资源存储类型

# resource store on HDFS/S3 path, resource file will store to this hdfs path, self configuration, please make sure the directory exists on hdfs and has read write permissions. "/dolphinscheduler" is recommended

resourceUploadPath="/dolphinscheduler"

# 资源上传路径

# if resourceStorageType is HDFS,defaultFS write namenode address,HA, you need to put core-site.xml and hdfs-site.xml in the conf directory.

# if S3,write S3 address,HA,for example :s3a://dolphinscheduler,

# Note,S3 be sure to create the root directory /dolphinscheduler

defaultFS="hdfs://hadoop102:8020"

# 默认文件系统

# if resourceStorageType is S3, the following three configuration is required, otherwise please ignore

s3Endpoint="http://192.168.xx.xx:9010"
s3AccessKey="xxxxxxxxxx"
s3SecretKey="xxxxxxxxxx"

# resourcemanager port, the default value is 8088 if not specified

resourceManagerHttpAddressPort="8088"

# yarn RM http 访问端口

# if resourcemanager HA is enabled, please set the HA IPs; if resourcemanager is single node, keep this value empty

yarnHaIps=

# Yarn RM 高可用 ip,若未启用 RM 高可用,则将该值置空

# if resourcemanager HA is enabled or not use resourcemanager, please keep the default value; If resourcemanager is single node, you only need to replace 'yarnIp1' to actual resourcemanager hostname

singleYarnIp="hadoop103"

# Yarn RM 主机名,若启用了 HA 或未启用 RM,保留默认值

# who has permission to create directory under HDFS/S3 root path

# Note: if kerberos is enabled, please config hdfsRootUser=

hdfsRootUser="atguigu"

# 拥有 HDFS 根目录操作权限的用户

# kerberos config

# whether kerberos starts, if kerberos starts, following four items need to config, otherwise please ignore

kerberosStartUp="false"

# 

kdc krb5 config file path

krb5ConfPath="$installPath/conf/krb5.conf"

# keytab username,watch out the @ sign should followd by \\

keytabUserName="hdfs-mycluster\\@ESZ.COM"

# username keytab path

keytabPath="$installPath/conf/hdfs.headless.keytab"

# kerberos expire time, the unit is hour

kerberosExpireTime="2"

# use sudo or not

sudoEnable="true"
# worker tenant auto create

workerTenantAutoCreate="false"

3.5 初始化数据库

DolphinScheduler 元数据存储在关系型数据库中,故需创建相应的数据库和用户。

(1)创建数据库

mysql> CREATE DATABASE dolphinscheduler DEFAULT CHARACTER SET utf8 DEFAULT COLLATE utf8_general_ci;

(2)创建用户

mysql> CREATE USER 'dolphinscheduler'@'%' IDENTIFIED BY 'dolphinscheduler';

注:
若出现以下错误信息,表明新建用户的密码过于简单。

ERROR 1819 (HY000): Your password does not satisfy the current policy requirements
可提高密码复杂度或者执行以下命令降低MySQL密码强度级别。
mysql> set global validate_password_length=4;
mysql> set global validate_password_policy=0;

(3)赋予用户相应权限

mysql> GRANT ALL PRIVILEGES ON dolphinscheduler.* TO 'dolphinscheduler'@'%';

mysql> flush privileges;

(4)拷贝MySQL驱动到DolphinScheduler的解压目录下的lib中

[atguigu@hadoop102 apache-dolphinscheduler-2.0.3-bin]$ cp /opt/software/mysql-connector-java-8.0.16.jar lib/

(5)执行数据库初始化脚本
数据库初始化脚本位于DolphinScheduler解压目录下的script目录中,即/opt/software/ds/apache-dolphinscheduler-2.0.3-bin/script/。

[atguigu@hadoop102 apache-dolphinscheduler-2.0.3-bin]$ script/create-dolphinscheduler.sh

3.6 一键部署DolphinScheduler

(1)启动Zookeeper集群

[atguigu@hadoop102 apache-dolphinscheduler-2.0.3-bin]$ zk.sh start

(2)一键部署并启动DolphinScheduler

[atguigu@hadoop102 apache-dolphinscheduler-2.0.3-bin]$ ./install.sh

(3)查看DolphinScheduler进程

--------- hadoop102 ----------
29139 ApiApplicationServer
28963 WorkerServer
3332 QuorumPeerMain
2100 DataNode
28902 MasterServer
29081 AlertServer
1978 NameNode
29018 LoggerServer
2493 NodeManager
29551 Jps
--------- hadoop103 ----------
29568 Jps
29315 WorkerServer
2149 NodeManager
1977 ResourceManager
2969 QuorumPeerMain
29372 LoggerServer
1903 DataNode
--------- hadoop104 ----------
1905 SecondaryNameNode
27074 WorkerServer
2050 NodeManager
2630 QuorumPeerMain
1817 DataNode
27354 Jps
27133 LoggerServer

(4)访问DolphinScheduler UI
DolphinScheduler UI地址为http://hadoop102:12345/dolphinscheduler
初始用户的用户名为:admin,密码为dolphinscheduler123

3.7 DolphinScheduler启停命令

DolphinScheduler的启停脚本均位于其安装目录的bin目录下。
1)一键启停所有服务

./bin/start-all.sh
./bin/stop-all.sh
注意同Hadoop的启停脚本进行区分。

2)启停 Master

./bin/dolphinscheduler-daemon.sh start master-server
./bin/dolphinscheduler-daemon.sh stop master-server

3)启停 Worker

./bin/dolphinscheduler-daemon.sh start worker-server
./bin/dolphinscheduler-daemon.sh stop worker-server

4)启停 Api

./bin/dolphinscheduler-daemon.sh start api-server
./bin/dolphinscheduler-daemon.sh stop api-server

5)启停 Logger

./bin/dolphinscheduler-daemon.sh start logger-server
./bin/dolphinscheduler-daemon.sh stop logger-server

6)启停 Alert

./bin/dolphinscheduler-daemon.sh start alert-server
./bin/dolphinscheduler-daemon.sh stop alert-server

第4章 DolphinScheduler入门

4.1 安全中心配置

安全中心主要有租户管理、用户管理、告警组管理、告警实例管理、Worker分组管理、Yarn 队列管理、环境管理、令牌管理等功能。安全中心只有管理员账户才有操作权限。

dolphinscheduler PYTHON_HOME修改 dolphinscheduler安装部署_开发语言_02

4 .1.1 租户管理

租户对应的是Linux的用户,用于worker提交作业所使用的用户。如果linux没有这个用户,则会导致任务运行失败。你可以通过修改 worker.properties 配置文件中参数 worker.tenant.auto.create=true(默认值为 false)实现当 linux 用户不存在时自动创建该用户。worker.tenant.auto.create=true 参数会要求 worker 可以免密运行 sudo 命令。

此处创建一个atguigu租户,如下图。

dolphinscheduler PYTHON_HOME修改 dolphinscheduler安装部署_IP_03

注:

租户编码:租户编码是Linux上的用户,唯一,不能重复。

队列:该租户提交Yarn任务时的默认队列。

4 .1.2 用户管理

用户对应的是DolphinScheduler的用户,用于登录DolphinScheduler。用户分管理员用户和普通用户。

管理员有授权和用户管理等权限,没有创建项目和工作流定义的操作的权限。

普通用户可以创建项目和对工作流定义的创建,编辑,执行等操作。

注意:如果该用户切换了租户,则该用户所在租户下所有资源将复制到切换的新租户下。

此处创建一个普通用户atguigu,如下图。

dolphinscheduler PYTHON_HOME修改 dolphinscheduler安装部署_开发语言_04

注:

用户名:DolphinScheduler登录账户

租户:该用户关联的租户

队列:默认为租户所关联的队列。

邮件、手机号:主要用于告警通知。

4 .1.3 告警组管理

告警组是在启动时设置的参数,在流程结束以后会将流程的状态和其他信息以邮件形式发送给告警组。

管理员进入安全中心->告警组管理页面,点击“创建告警组”按钮,创建告警组。

dolphinscheduler PYTHON_HOME修改 dolphinscheduler安装部署_开发语言_05

注:

组名称:用户自定义的告警组名称。

告警插件实例:用户创建的告警实例。

4 .1.4 告警实例管理

告警实例是用户配置的告警插件实例,目前支持钉钉、右键、飞书、Http、Script、Slack、企业微信告警插件。此处配置的告警实例会出现在告警组创建时的“告警插件实例”下拉列表中。

此处创建一个钉钉告警实例。

dolphinscheduler PYTHON_HOME修改 dolphinscheduler安装部署_java_06

注:配置项将在第五章介绍。

4 .1.5 Worker分组管理

在任务执行时,可以将任务分配给指定Worker组,最终由该组中的Worker节点执行该任务。每个worker节点都会归属于自己的Worker分组,默认分组为default。

1)Worker 分组修改方式一

打开要设置分组的worker节点上的"conf/worker.properties"配置文件. 修改worker.groups参数。

worker.groups参数后面对应的为该worker节点对应的分组名称,默认为default。

如果该worker节点对应多个分组,则以逗号隔开。

示例:

worker.groups=default,test

2)Worker 分组修改方式二

在运行中修改worker所属的worker分组,如果修改成功,worker就会使用这个新建的分组,忽略worker.properties中的配置。即方式二优先级高于方式一。修改步骤为"安全中心 -> worker分组管理 -> 点击 ‘新建worker分组’ -> 输入’组名称’ -> 选择已有worker -> 点击’提交’"。如下图所示:

dolphinscheduler PYTHON_HOME修改 dolphinscheduler安装部署_数据库_07

此处可不做配置。

4 .1.6 Yarn 队列管理

队列是在执行spark、mapreduce等程序,需要用到“队列”参数时使用的。

此处的队列对应的是Yarn调度器的资源队列。故队列概念只对跑在Yarn上的任务类型有效。此处创建出的队列,可供后续任务进行选择。需要注意的是,在DolphinScheduler中创建队列,并不会影响到Yarn调度器的队列配置。

此处可不创建队列。

dolphinscheduler PYTHON_HOME修改 dolphinscheduler安装部署_IP_08

注:

名称:DS 执行任务时可以选择的队列名称。

队列值:与名称相对应的 Yarn 调度队列的名称。

4 .1.7 环境管理

在线配置Worker运行环境,一个Worker可以指定多个环境,每个环境等价于dolphinscheduler_env.sh文件。

默认环境为dolphinscheduler_env.sh文件。

在任务执行时,可以将任务分配给指定worker分组,根据worker分组选择对应的环境,最终由该组中的worker节点执行环境后执行该任务。

1 )创建/更新环境

环境配置等价于dolphinscheduler_env.sh文件内配置。

dolphinscheduler PYTHON_HOME修改 dolphinscheduler安装部署_数据库_09

注:

环境名称:用户自定义名称。

环境配置:与 dolphinscheduler_env.sh 配置格式相同。

详细描述:环境的详细描述,不能为空,否则无法创建

Worker组:环境所属的 Worker 组。如果不选择依然可以创建成功,但在启动工作流时无法选择该环境。

2)使用环境

在工作流定义中创建任务节点选择Worker分组和Worker分组对应的环境,任务执行时Worker会先执行环境再执行任务。

注意:可以在创建任务节点时选择环境,也可以在工作流执行前选择环境,但只有前者选择的环境可以生效。

dolphinscheduler PYTHON_HOME修改 dolphinscheduler安装部署_数据库_10

4 .1.8 令牌管理

令牌用于通过接口访问DolphinScheduler各项服务时的用户验证。普通用户通过UI页面访问各项服务时,无需使用令牌。若需将DolphinScheduler与第三方服务进行集成,则需调用其接口,此时需使用令牌。

4 .1.9 授予权限

授予权限包括项目权限,资源权限,数据源权限,UDF函数权限。

管理员可以对普通用户进行非其创建的项目、资源、数据源和UDF函数进行授权。因为项目、资源、数据源和UDF函数授权方式都是一样的,所以以项目授权为例介绍。

注意:对于用户自己创建的项目,该用户拥有所有的权限。则项目列表和已选项目列表中不会显示。

dolphinscheduler PYTHON_HOME修改 dolphinscheduler安装部署_开发语言_11

dolphinscheduler PYTHON_HOME修改 dolphinscheduler安装部署_数据库_12

登陆该用户,即可看到被授予权限的项目。

dolphinscheduler PYTHON_HOME修改 dolphinscheduler安装部署_IP_13

4.2 项目管理

4 .2.1 切换用户

默认不使用管理员用户操作项目和工作流等,故需先切换到普通用户atguigu。

1)admin用户退出

dolphinscheduler PYTHON_HOME修改 dolphinscheduler安装部署_java_14

2)使用atguigu用户登录

dolphinscheduler PYTHON_HOME修改 dolphinscheduler安装部署_hadoop_15

4 .2 . 2 创建项目

dolphinscheduler PYTHON_HOME修改 dolphinscheduler安装部署_数据库_16

4 .2.3 查看项目

dolphinscheduler PYTHON_HOME修改 dolphinscheduler安装部署_hadoop_17

4 .3 工作流基础配置

下图为工作流配置页面,共包含三个模快,分别为工作流定义、工作流实例和任务实例。

工作流定义:用于定义工作流,包括工作流各节点任务详情及各节点依赖关系等。

工作流实例:工作流每执行一次就会生成一个工作流实例。此处可查看正在运行的工作流以及已经完成的工作流。

任务实例:工作流中的一个节点任务,每执行一次就会生成一个任务实例。此处可用于查看正在执行的节点任务以及已经完成的节点任务。

dolphinscheduler PYTHON_HOME修改 dolphinscheduler安装部署_hadoop_18

4 .3.1 工作流定义

工作流要求:工作流需包含三个Shell类型的任务节点,分别是A,B,C。三个任务的依赖关系如下图所示:

dolphinscheduler PYTHON_HOME修改 dolphinscheduler安装部署_开发语言_19

1)创建工作流

dolphinscheduler PYTHON_HOME修改 dolphinscheduler安装部署_hadoop_20

2)配置任务节点

(1)节点A

dolphinscheduler PYTHON_HOME修改 dolphinscheduler安装部署_hadoop_21

(2)节点B

dolphinscheduler PYTHON_HOME修改 dolphinscheduler安装部署_开发语言_22

(3)节点C

dolphinscheduler PYTHON_HOME修改 dolphinscheduler安装部署_java_23

3)配置任务节点的依赖关系

(1)直接对 DAG 图进行操作

dolphinscheduler PYTHON_HOME修改 dolphinscheduler安装部署_java_24

(2)在节点设置中选择 “前置任务”

dolphinscheduler PYTHON_HOME修改 dolphinscheduler安装部署_hadoop_25

4)保存工作流定义

dolphinscheduler PYTHON_HOME修改 dolphinscheduler安装部署_开发语言_26

4 .3.2 提交执行工作流

1)上线工作流

工作流须上线之后才能执行。处于上线状态的工作流定义不可修改,如需修改,须先下线。

dolphinscheduler PYTHON_HOME修改 dolphinscheduler安装部署_java_27

2)单次运行工作流

dolphinscheduler PYTHON_HOME修改 dolphinscheduler安装部署_开发语言_28

3)定时执行工作流

(1)点击定时

(2)配置定时规则

此处示例为每秒钟执行一次

dolphinscheduler PYTHON_HOME修改 dolphinscheduler安装部署_数据库_29

配置定时之后,点击“执行时间”查看任务接下来五次执行时间。

dolphinscheduler PYTHON_HOME修改 dolphinscheduler安装部署_java_30

(3)定时管理

dolphinscheduler PYTHON_HOME修改 dolphinscheduler安装部署_IP_31

(4)定时上线

dolphinscheduler PYTHON_HOME修改 dolphinscheduler安装部署_数据库_32

(5)查看工作流实例

dolphinscheduler PYTHON_HOME修改 dolphinscheduler安装部署_开发语言_33

4 .3.2 查看工作流实例

1)查看所有工作流实例

dolphinscheduler PYTHON_HOME修改 dolphinscheduler安装部署_java_34

2)查看工作流执行状态

dolphinscheduler PYTHON_HOME修改 dolphinscheduler安装部署_hadoop_35

4 .3.3 查看任务实例

1)查看所有任务实例

dolphinscheduler PYTHON_HOME修改 dolphinscheduler安装部署_java_36

2)查看任务实例日志

dolphinscheduler PYTHON_HOME修改 dolphinscheduler安装部署_java_37

dolphinscheduler PYTHON_HOME修改 dolphinscheduler安装部署_开发语言_38

第5章 DolphinScheduler进阶

5.1 工作流传参

DolphinScheduler支持对任务节点进行灵活的传参,任务节点可通过${参数名}引用参数值。

5.1.1 内置参数

DolphinScheduler提供了一些时间相关的系统参数,方便定时调度使用。

1)基础内置参数

变量名

参数

说明

system.biz.date

${system.biz.date}

定时时间前一天,格式为 yyyyMMdd

system.biz.curdate

${system.biz.curdate}

定时时间,格式为 yyyyMMdd

system.datetime

${system.datetime}

定时时间,格式为 yyyyMMddHHmmss

2)衍生内置参数

可通过衍生内置参数,设置任意格式、任意时间的日期。

(1)自定义日期格式

可以对 $[yyyyMMddHHmmss] 任意分解组合,如 $[yyyyMMdd], $[HHmmss], $[yyyy-MM-dd]。

(2)使用 add_months() 函数

该函数用于加减月份, 第一个入口参数为[yyyyMMdd],表示返回时间的格式 第二个入口参数为月份偏移量,表示加减多少个月。

参数

说明

$[add_months(yyyyMMdd,12*N)]

后 N 年

$[add_months(yyyyMMdd,-12*N)]

前 N 年

$[add_months(yyyyMMdd,N)]

后 N 月

$[add_months(yyyyMMdd,-N)]

前 N 月

(3)直接加减数字

在自定义格式后直接“+/-”数字,单位为“天”。

参数

说明

$[yyyyMMdd+7*N]

后 N 周

$[yyyyMMdd-7*N]

前 N 周

$[yyyyMMdd+N]

后 N 天

$[yyyyMMdd-N]

前 N 天

$[HHmmss+N/24]

后 N 小时

$[HHmmss-N/24]

前 N 小时

$[HHmmss+N/24/60]

后 N 分钟

$[HHmmss-N/24/60]

前 N 分钟

3)配置示例

若执行的脚本需要一个格式为yyyy-MM-dd的前一天日期的参数,进行如下配置即可。

dolphinscheduler PYTHON_HOME修改 dolphinscheduler安装部署_hadoop_39

5.1.2 全局参数

全局参数是指针对整个工作流的所有任务节点都有效的参数,在工作流定义页面配置。

1)修改helloworld工作流每个任务节点如下

(1)节点A配置

dolphinscheduler PYTHON_HOME修改 dolphinscheduler安装部署_IP_40

(2)节点B配置

dolphinscheduler PYTHON_HOME修改 dolphinscheduler安装部署_开发语言_41

(3)节点C配置

dolphinscheduler PYTHON_HOME修改 dolphinscheduler安装部署_IP_42

2)保存工作流,并设置全局参数

dolphinscheduler PYTHON_HOME修改 dolphinscheduler安装部署_开发语言_43

3)执行工作流,查看三个任务节点输出日志。

5.1.3 本地参数

局部参数是指只针对单个任务节点有效的参数。

1)修改helloworld工作流Node-A节点如下

dolphinscheduler PYTHON_HOME修改 dolphinscheduler安装部署_IP_44

dt:参数名

IN:IN 表示局部参数仅能在当前节点使用,OUT 表示局部参数可以向下游传递

DATE:数据类型,日期

$[yyyy-MM-dd]:自定义格式的衍生内置参数

2)保存工作流并运行,查看Node-A输出日志。

5.1.4 参数传递

1)本地任务使用全局参数

通过 ${param} 方式引用全局参数,5.1.2 节中各节点的配置就引用了全局参数。

2)上游任务传递给下游任务

目前传递方向仅支持上游单向传递给下游。目前支持这个特性的任务类型有:Shell、SQL、Procedure。

如果要将该节点的结果传递给有依赖关系的下游节点,当定义上游节点时,需要在设置自定义参数时选择方向为 OUT。

3)实操

(1)设置上游节点 A

dolphinscheduler PYTHON_HOME修改 dolphinscheduler安装部署_java_45

(2)设置下游节点 B

dolphinscheduler PYTHON_HOME修改 dolphinscheduler安装部署_数据库_46

注:若节点之间没有依赖关系,则局部参数无法传递。

(3)查看输出日志

可以看到对应节点日志中输出了其调用参数的值。

5.1.5 参数优先级

1)本地参数、全局参数、上有任务传递参数优先级测试

(1)设置上游节点本地参数

dolphinscheduler PYTHON_HOME修改 dolphinscheduler安装部署_java_47

(2)设置当前节点本地参数

dolphinscheduler PYTHON_HOME修改 dolphinscheduler安装部署_IP_48

(3)设置全局参数

dolphinscheduler PYTHON_HOME修改 dolphinscheduler安装部署_数据库_49

(4)上线并运行工作流查看 Node-B 运行结果

dolphinscheduler PYTHON_HOME修改 dolphinscheduler安装部署_java_50

可见,生效的参数为 Node-B 节点定义的本地参数

(5)使 Node-B 节点定义的本地参数 priority 失效,重新运行工作流

dolphinscheduler PYTHON_HOME修改 dolphinscheduler安装部署_hadoop_51

dolphinscheduler PYTHON_HOME修改 dolphinscheduler安装部署_java_52

可见,此时生效的是全局参数。

(6)小结

由此可得,优先级由高到低:本地参数 > 全局参数 > 上游任务传递的参数。

2)多个上游任务传递参数场景分析

(1)节点间依赖关系如下

dolphinscheduler PYTHON_HOME修改 dolphinscheduler安装部署_java_53

(2)Node-A 参数设置

dolphinscheduler PYTHON_HOME修改 dolphinscheduler安装部署_hadoop_54

(3)Node-B 参数设置

dolphinscheduler PYTHON_HOME修改 dolphinscheduler安装部署_开发语言_55

(4)Node-C 节点设置

dolphinscheduler PYTHON_HOME修改 dolphinscheduler安装部署_hadoop_56

(5)上线并运行工作流查看 Node-C 日志

dolphinscheduler PYTHON_HOME修改 dolphinscheduler安装部署_hadoop_57

(6)将休眠 5 秒的 Node-A 的 upper 参数置空

dolphinscheduler PYTHON_HOME修改 dolphinscheduler安装部署_hadoop_58

(7)再次运行工作流,查看 Node-C 的日志

dolphinscheduler PYTHON_HOME修改 dolphinscheduler安装部署_hadoop_59

(8)小结

Node-C 依赖于 Node-A 和 Node-B,而 Node-A 节点在执行 echo 之前休眠5秒,Node-B 节点在执行 echo 命令之前休眠 10 秒,Node-A 先于 Node-B 执行完毕,Node-C 最终调用的参数为 Node-A 传递的参数。

交换 Node-A 和 Node-B 的休眠时间使得 Node-B 先执行完毕,发现 Node-C 调用的是 Node-B 传递的参数。多次调整休眠时间,发现 Node-C 调用的参数始终为先执行完毕的上游节点传递的参数。

此外,当先执行完毕的节点参数值为空时,会调用其它上游节点传递的值为非空的参数。

3结论

(1)本地参数 > 全局参数 > 上游任务传递的参数;

(2)多个上游节点均传递同名参数时,下游节点会优先使用值为非空的参数;

(3)如果存在多个值为非空的参数,则按照上游任务的完成时间排序,选择完成时间最早的上游任务对应的参数。

5.2 引用依赖资源

有些任务需要引用一些额外的资源,例如MR、Spark等任务须引用jar包,Shell任务需要引用其他脚本等。DolphinScheduler提供了资源中心来对这些资源进行统一管理。

如果需要用到资源上传功能,针对单机可以选择本地文件目录作为上传文件夹(此操作不需要部署 Hadoop)。当然也可以选择上传到 Hadoop or MinIO 集群上,此时则需要有Hadoop (2.6+) 或者 MinIO 等相关环境。本文在部署 DS 集群时指定了文件系统为 HDFS。

1)文件管理

文件管理是对各种资源文件的管理,包括创建基本的txt/log/sh/conf/py/java等文件、上传jar包等各种类型文件,可进行编辑、重命名、下载、删除等操作。

(1)创建文件

dolphinscheduler PYTHON_HOME修改 dolphinscheduler安装部署_java_60

(2)上传文件

点击"上传文件"按钮进行上传,将文件拖拽到上传区域,文件名会自动以上传的文件名称补全。

dolphinscheduler PYTHON_HOME修改 dolphinscheduler安装部署_开发语言_61

(3)引用文件

dolphinscheduler PYTHON_HOME修改 dolphinscheduler安装部署_开发语言_62

2)UDF管理

(1)资源管理

资源管理和文件管理功能类似,不同之处是资源管理是上传的UDF函数,文件管理上传的是用户程序,脚本及配置文件 操作功能:重命名、下载、删除。上传方式同上。

(2)函数管理

创建 UDF 函数。

dolphinscheduler PYTHON_HOME修改 dolphinscheduler安装部署_数据库_63

UDF函数名称:输入UDF函数时的名称

包名类名:输入UDF函数的全路径

UDF资源:设置创建的UDF对应的资源文件

5.3 数据源配置

数据源中心支持MySQL、POSTGRESQL、HIVE/IMPALA、SPARK、CLICKHOUSE、ORACLE、SQLSERVER等数据源。

此处仅对 HIVE 数据源进行介绍。

1)配置 Hive数据源

dolphinscheduler PYTHON_HOME修改 dolphinscheduler安装部署_hadoop_64

数据源:选择HIVE。

数据源名称:输入数据源的名称。

描述:输入数据源的描述,可置空。

IP/主机名:输入连接HIVE的IP。

端口:输入连接HIVE的端口,默认 10000。

用户名:设置连接HIVE的用户名,如果没有配置 HIVE 权限管理,则用户名可以任意,但 HIVE 表数据存储在 HDFS,为了保证对所有表的数据均有操作权限,此处选择 HDFS 超级用户 atguigu(注:HDFS 超级用户名与执行 HDFS 启动命令的 Linux 节点用户名相同)。

密码:设置连接HIVE的密码,如果没有配置 HIVE 权限管理,则密码置空即可。

数据库名:输入连接HIVE的数据库名称。

Jdbc连接参数:用于HIVE连接的参数设置,以JSON形式填写,没有参数可置空。

2)使用 HIVE数据源

(1)新建 SQL 节点

dolphinscheduler PYTHON_HOME修改 dolphinscheduler安装部署_java_65

(2)配置节点

dolphinscheduler PYTHON_HOME修改 dolphinscheduler安装部署_IP_66

注:

节点名称:自定义节点名称。

环境名称:HIVE 执行所需环境

数据源:类型选择 HIVE,数据源选择上文配置的 HIVE 数据源。

SQL 类型:根据SQL 语句选择,此处选用默认的“查询”即可。

SQL 语句:要执行的 SQL 语句,末尾不能有分号,否则报错:语法错误。

5.4 告警实例配置

邮箱告警实例配置

如需使用DolphinScheduler的邮件告警通知功能,需要准备一个电子邮箱账号,并启用SMTP服务。此处以 QQ 邮箱为例。

1)POP3,IMAP,SMTP\

(1)POP3

POP3是Post Office Protocol 3的简称,即邮局协议的第3个版本,它规定怎样将个人计算机连接到Internet的邮件服务器和下载电子邮件的电子协议。它是因特网电子邮件的第一个离线协议标准,POP3允许用户从服务器上把邮件存储到本地主机(即自己的计算机)上,同时删除保存在邮件服务器上的邮件,而POP3服务器则是遵循POP3协议的接收邮件服务器,用来接收电子邮件的。(与IMAP有什么区别?)

(2)SMTP

SMTP 的全称是“Simple Mail Transfer Protocol”,即简单邮件传输协议。它是一组用于从源地址到目的地址传输邮件的规范,通过它来控制邮件的中转方式。SMTP 协议属于 TCP/IP 协议簇,它帮助每台计算机在发送或中转信件时找到下一个目的地。SMTP 服务器就是遵循 SMTP 协议的发送邮件服务器。

SMTP 认证,简单地说就是要求必须在提供了账户名和密码之后才可以登录 SMTP 服务器,这就使得那些垃圾邮件的散播者无可乘之机。

增加 SMTP 认证的目的是为了使用户避免受到垃圾邮件的侵扰。

(3)IMAP

IMAP全称是Internet Mail Access Protocol,即交互式邮件存取协议,它是跟POP3类似邮件访问标准协议之一。不同的是,开启了IMAP后,您在电子邮件客户端收取的邮件仍然保留在服务器上,同时在客户端上的操作都会反馈到服务器上,如:删除邮件,标记已读等,服务器上的邮件也会做相应的动作。所以无论从浏览器登录邮箱或者客户端软件登录邮箱,看到的邮件以及状态都是一致的。

(4)邮件发送流程

dolphinscheduler PYTHON_HOME修改 dolphinscheduler安装部署_hadoop_67

i)DS 使用 mail.sender 指定的邮箱发送邮件到 SMTP 服务器,要求此邮箱开启 SMTP 服务;

ii)SMTP 服务将邮件转交给 POP3 或 IMAP 服务,经测试,通常SMTP 服务和 POP3 或 IMAP 服务处于同一台服务器;

iii)收件邮箱客户端从 IMAP/POP3 服务器拉取邮件,某些邮箱可以设置邮件刷新时间,以此来控制客户端从服务端拉取邮件的频率。

iv)需要注意:此处的邮件客户端均为第三方右键客户端,登陆邮箱输入的密码为授权码,使用 web 端收发邮件的流程可能有所不同。

2)获取授权码

(1)开启 SMTP 服务

dolphinscheduler PYTHON_HOME修改 dolphinscheduler安装部署_开发语言_68

拖动进度条在页面下方找到下图所示内容,开启 POP3/SMTP | IMAP/SMTP 任一服务即可。

dolphinscheduler PYTHON_HOME修改 dolphinscheduler安装部署_hadoop_69

(2)生成授权码

dolphinscheduler PYTHON_HOME修改 dolphinscheduler安装部署_数据库_70

点击“生成授权码”,按照提示信息操作后点击“我已发送”即可生成授权码。授权码可以生成多次,若遗忘重新生成即可。

3)DolphinScheduler 配置

dolphinscheduler PYTHON_HOME修改 dolphinscheduler安装部署_IP_71


(1)告警实例名称

在告警组配置时可以选择的告警插件实例名称,用户自定义。

(2)选择插件

选择 Email 则为邮箱告警实例

(3)收件人

接收方邮箱地址,收件人不需要开启 SMTP 服务。

(4)抄送人

抄送是指用户给收件人发出邮件的同时把该邮件发送给另外的人,收件人之外的收件方都是抄送人,“收件人”可以获知该邮件的所有抄送人。

抄送人可以为空。

(5)mail.smtp.host

邮箱的 SMTP 服务器域名,对于 QQ 邮箱,为 smtp.qq.com。各邮箱的 SMTP 服务器见此链接:

(6)mail.smtp.port

邮箱的 SMTP 服务端口号,主流邮箱均为 25 端口,使用默认值即可。

(7)mail.sender

发件方邮箱地址,需要开启 SMTP 服务。

(8)mail.user

与 mail.sender 保持一致即可。

(9)mail.password

以无论从浏览器登录邮箱或者客户端软件登录邮箱,看到的邮件以及状态都是一致的。

(4)邮件发送流程

[外链图片转存中…(img-PwFNRn9k-1672365299416)]

i)DS 使用 mail.sender 指定的邮箱发送邮件到 SMTP 服务器,要求此邮箱开启 SMTP 服务;

ii)SMTP 服务将邮件转交给 POP3 或 IMAP 服务,经测试,通常SMTP 服务和 POP3 或 IMAP 服务处于同一台服务器;

iii)收件邮箱客户端从 IMAP/POP3 服务器拉取邮件,某些邮箱可以设置邮件刷新时间,以此来控制客户端从服务端拉取邮件的频率。

iv)需要注意:此处的邮件客户端均为第三方右键客户端,登陆邮箱输入的密码为授权码,使用 web 端收发邮件的流程可能有所不同。

2)获取授权码

(1)开启 SMTP 服务

[外链图片转存中…(img-9joIwSnG-1672365299416)]

拖动进度条在页面下方找到下图所示内容,开启 POP3/SMTP | IMAP/SMTP 任一服务即可。

[外链图片转存中…(img-KsBr8IBp-1672365299417)]

(2)生成授权码

[外链图片转存中…(img-eLkneCJd-1672365299417)]

点击“生成授权码”,按照提示信息操作后点击“我已发送”即可生成授权码。授权码可以生成多次,若遗忘重新生成即可。

3)DolphinScheduler 配置

[外链图片转存中…(img-EBr5jdtu-1672365299418)]


(1)告警实例名称

在告警组配置时可以选择的告警插件实例名称,用户自定义。

(2)选择插件

选择 Email 则为邮箱告警实例

(3)收件人

接收方邮箱地址,收件人不需要开启 SMTP 服务。

(4)抄送人

抄送是指用户给收件人发出邮件的同时把该邮件发送给另外的人,收件人之外的收件方都是抄送人,“收件人”可以获知该邮件的所有抄送人。

抄送人可以为空。

(5)mail.smtp.host

邮箱的 SMTP 服务器域名,对于 QQ 邮箱,为 smtp.qq.com。各邮箱的 SMTP 服务器见此链接:

(6)mail.smtp.port

邮箱的 SMTP 服务端口号,主流邮箱均为 25 端口,使用默认值即可。

(7)mail.sender

发件方邮箱地址,需要开启 SMTP 服务。

(8)mail.user

与 mail.sender 保持一致即可。

(9)mail.password