Apache DolphinScheduler大规模任务调度系统对大数据实时Flink任务支持

原创

海豚调度平台 2024-09-02 16:32:42 ©著作权

文章标签 SeaTunnel 文章分类

©著作权归作者所有：来自51CTO博客作者海豚调度平台的原创作品，请联系作者获取转载授权，否则将追究法律责任

转载自神龙大侠

我是用olphinScheduler 3.2.1版本做源代码编译部署（部署方式参考我的另外一篇文档《源代码编译，Apache DolphinScheduler前后端分离部署解决方案》）

二进制文件部署本文也适用，只需要修改相对应的配置即可。

资源管理底层基座替换成hdfs

Flink程序jar包是在资源中心进行管理的，对于dolphinscheduler系统来说，资源主要包括3类

文件管理

当在调度过程中需要使用到第三方的 jar 或者用户需要自定义脚本的情况，可以通过在该页面完成相关操作。可创建的文件类型包括：txt/log/sh/conf/py/java 等。并且可以对文件进行编辑、重命名、下载和删除等操作。

UDF管理

资源管理和文件管理功能类似，不同之处是资源管理是上传的 UDF 函数，文件管理上传的是用户程序，脚本及配置文件。

任务组管理

任务组主要用于控制任务实例并发，旨在控制其他资源的压力（也可以控制 Hadoop 集群压力，不过集群会有队列管控）。您可在新建任务定义时，可配置对应的任务组，并配置任务在任务组内运行的优先级。用户仅能查看有权限的项目对应的任务组，且仅能创建或修改具有写权限的项目对应的任务组。

DolphinScheduler支持将资源存储在api-server本地文件系统或者hadoop分布式文件系统hdfs上面（也可以支持s3，我用的hdfs），生产环境把资源存在本地文件系统是不可靠的，所以需要将底层介质存储平台改成hdfs。

对于DolphinScheduler的核心组件，

资源的管理是在api-server
资源的使用是work-server

所以如果支持hdfs的配置修改需要对api-server和worker-server重新部署。

如果要支持hdfs需要修改（dolphinscheduler-common中的common.properties）如下配置：

resource.storage.upload.base.path=/dolphinscheduler //也可不修改
resource.hdfs.root.user=
resource.hdfs.fs.defaultFS=
hadoop.security.authentication.startup.state=true

java.security.krb5.conf.path= //krb5.conf配置文件
login.user.keytab.username=
login.user.keytab.path=

修改完之后，重新编译api-server， work-server部署，就可以修改资源管理文件系统的底座了。

目前DolphinScheduler支持创建文件夹和上传文件的功能，实际使用如下图所示：

file