XXL-JOB GLUE任务第三方依赖包的管理实践

背景

xxl-job 是一个分布式任务调度平台,它的应用场景非常广泛,例如定时任务、消息推送、批处理等。xxl-job 中的任务类型主要有两种:

  1. BEAN模式(方法形式)

支持基于方法的开发方式,每个任务对应一个方法。

优点:每个任务只需要开发一个方法,并添加”@XxlJob”注解即可,更加方便、快速。支持自动扫描任务并注入到执行器容器。
缺点:要求Spring容器环境;
基于方法开发的任务,底层会生成JobHandler代理,和基于类的方式一样,任务也会以JobHandler的形式存在于执行器任务容器中。

  1. GLUE模式(源码方式)

任务以源码方式维护在调度中心,支持通过Web IDE在线更新,实时编译和生效,因此不需要指定JobHandler。例如我的代码是python类型的代码,点击该任务右侧“GLUE”按钮,将会前往GLUE任务的Web IDE界面,在该界面支持对任务代码进行开发。

python 的依赖安装命令 python依赖包管理_python

  1. 优点:这种方式相比 BEAN 模式更加灵活,因为任务逻辑不一定要用 Java 实现。
  2. 缺点:存在一定的安全风险,因为执行器可以执行任意的脚本文件

但是大家注意到没有,这个地方没有涉及应用的环境问题,比如我的是java代码,那我的程序中的某个包是否在本地能被引用到,即通过maven或是gradle已经下载本地了,或是我的python代码的依赖包是否在当前环境pip install了,我们从官方的github issues中,看到有很多同学提到了这些问题.但是这个官方没有给出具体的解决方案。这篇文档,就给大家谈谈这个问题。

https://github.com/xuxueli/xxl-job/issues/129

https://github.com/xuxueli/xxl-job/issues/254

https://github.com/xuxueli/xxl-job/issues/1401

GLUE模式(Java)任务依赖环境构建

在 xxl-job 的 GLUE 模式下,如果任务类型为 Java 类型,那么需要保证任务依赖的相关 JAR 包已经下载到本地环境中,否则任务执行会出现 ClassNotFoundException 等类加载异常。

一种比较简单的方式是将任务依赖的 JAR 包打成一个 Fat Jar,然后将 Fat Jar 放在执行器的 classpath 中即可。Fat Jar 是将多个 JAR 包合并成一个 JAR 包的方式,执行时只需要引入这个 JAR 包即可。例如我们修改执行器的pom.xml,加入fastjson(相当于把jar放到了执行器的classpath中),然后我们的DemoGlueJobHandler便可以引用fastjson里面的类了。

<!-- 阿里JSON解析器 -->
<dependency>
    <groupId>com.alibaba</groupId>
    <artifactId>fastjson</artifactId>
    <version>1.2.68</version>
</dependency>

python 的依赖安装命令 python依赖包管理_python_02


python 的依赖安装命令 python依赖包管理_maven_03


除了把依赖包提前放到执行器的classpath之外(可能会有包的冲突),还可以在任务执行前,通过代码动态加载依赖的 JAR 包,避免手动打包依赖的麻烦。可以使用 URLClassLoader 类实现动态加载。首先我们把依赖的包放在一个共享盘上,保证执行器可以直接访问到,然后通过反射机制实现代码的调用与执行。具体实现方式可以参考以下代码示例:

package com.xxl.job.service.handler;

import com.xxl.job.core.context.XxlJobHelper;
import com.xxl.job.core.handler.IJobHandler;
import java.lang.reflect.Method;
import java.net.MalformedURLException;
import java.net.URL;
import java.net.URLClassLoader;

public class DemoGlueJobHandler extends IJobHandler {


    // 定义一个用于加载外部 JAR 包的 ClassLoader
    public class MyClassLoader extends URLClassLoader {
        public MyClassLoader(URL[] urls) {
            super(urls);
        }
    }

    // 加载外部 JAR 包的方法
    public void loadJars(String[] jarPaths) {
        URL[] urls = new URL[jarPaths.length];
        for (int i = 0; i < jarPaths.length; i++) {
            try {
                urls[i] = new URL("file:" + jarPaths[i]);
            } catch (MalformedURLException e) {
                e.printStackTrace();
            }
        }
        MyClassLoader myClassLoader = new MyClassLoader(urls);
        Thread.currentThread().setContextClassLoader(myClassLoader);
    }

    @Override
    public void execute() throws Exception {
        // 加载外部 JAR 包
        loadJars(new String[] {"/Users/dongluyang1/.m2/repository/com/alibaba/fastjson/1.2.28/fastjson-1.2.28.jar"});
        ClassLoader contextClassLoader = Thread.currentThread().getContextClassLoader();
        Class<?> jsonObjectClass = contextClassLoader.loadClass("com.alibaba.fastjson.JSONObject");
        Method put = jsonObjectClass.getMethod("put", String.class,Object.class);
        Object object =  jsonObjectClass.newInstance();
        put.invoke(object, "keyTest","valueTest");
        Method toJSONString = jsonObjectClass.getMethod("toJSONString");
        // 执行任务逻辑
        XxlJobHelper.log("XXL-JOB, Hello World."+toJSONString.invoke(object));
    }

}

python 的依赖安装命令 python依赖包管理_分布式_04

GLUE模式(Python)任务依赖环境构建

在 xxl-job 的 GLUE 模式下,如果任务类型为 Python 类型,那么需要保证任务依赖的相关库已经下载到本地环境中,否则任务执行会出现 ImportError 等异常。

一种常用的方式是使用 Python 虚拟环境(Virtual Environment)来管理依赖库。虚拟环境是 Python 的一个功能,可以在一个独立的环境中安装 Python 和相关库,不会影响到全局环境。

  1. 首先生成python代码文件,存储到公共目录,比如NFS某个目录下面
  2. 创建一个脚本文件,同时在任务的脚本中创建虚拟环境,安装所需的依赖库。可以使用以下命令:
# 创建虚拟环境
python3 -m venv /path/to/virtualenv
# 激活虚拟环境
source /path/to/virtualenv/bin/activate
# 安装依赖库
pip3 install package1 package2 ...

# 执行任务逻辑
...
# 退出虚拟环境
deactivate