IDEA运行DataX完整流程（填完所有的坑）

原创

阿甘兄_ 2022-03-25 14:03:45 ©著作权

文章标签 intellij idea datax 大数据 maven ide 文章分类 代码人生

©著作权归作者所有：来自51CTO博客作者阿甘兄_的原创作品，请联系作者获取转载授权，否则将追究法律责任

文章目录

01 引言
02 IDEA下运行DataX

2.1 步骤1：clone源码
2.2 步骤2：编译源码
2.3 步骤3：配置编译后的包
2.4 步骤4：复制用到的插件
2.5 步骤5：配置运行环境
2.6 步骤6：启动项目

03 文末

01 引言

关于DataX，在前面的博文《DataX入门》已经介绍过，因为官方没有IDEA运行的示例文档，网上的资料参差不齐，所以本文主要讲解如何在IDEA的环境下跑起DataX，一次填完所有的坑。

我使用的环境是（没必要安装python）：

jdk1.8
macos操作系统（这个不重要，windows系统一样的操作）

02 IDEA下运行DataX

在IDEA下运行DataX，我们必须先知道流程，下面我画了一张流程图：

IDEA运行DataX完整流程（填完所有的坑）_ide

下面按步骤操作讲解。

2.1 步骤1：clone源码

DataX的源码地址：https://github.com/alibaba/DataX.git

我们使用IDEA导入，“File - > New -> Project from Version Control...”：

IDEA运行DataX完整流程（填完所有的坑）_datax_02

输入源代码地址：

IDEA运行DataX完整流程（填完所有的坑）_maven_03

根据提示打开，等待依赖完成，直至导入完成，如果这里导入太慢，可以在maven里的settings.xml配置阿里云的镜像地址，如下：

<mirror>
  <id>alimaven</id>  
  <name>aliyun maven</name>  
  <url>http://maven.aliyun.com/nexus/content/groups/public/</url>  
  <mirrorOf>central</mirrorOf>          
</mirror>

注意：如果项目提示某个包没有，可以不用管它，直接跳到下一步，因为这个包不一定是我们需要的。

2.2 步骤2：编译源码

想了解maven的assembly自定义打包的内容可以参考我的博客《Maven的三种打包方式（jar、shade、assembly）》

注意DataX使用的是assembly自定义结构打包，所以可以使用命令打包，在项目根节点下，控制台运行maven脚本:

mvn clean package -DskipTests assembly:assembly

或者直接使用IDEA的按着control键选择clean（清理）和package（打包），然后Run Maven Build运行，等待编译。

IDEA运行DataX完整流程（填完所有的坑）_maven_04

编译完成后，我们可以看到项目目录即/core下生成了一个target文件夹，这个编译后的包里，我们需要的只有下面红框datax里面的内容。

IDEA运行DataX完整流程（填完所有的坑）_datax_05

为了方便理解，我把它编译后的datax文件夹复制到我的桌面（地址：/Users/用户名/Desktop/datax）：

IDEA运行DataX完整流程（填完所有的坑）_大数据_06

2.3 步骤3：配置编译后的包

我们可以看到datax编译后的包里面的目录结构如下：

IDEA运行DataX完整流程（填完所有的坑）_大数据_07

我们需要配置的是conf文件夹里面的core.json文件里面的core.transport.speed.byte，只要不为-1就可以了，值可以任意写，如下图（如果这里不改，后续跑程序的时候会报错），我把byte设置为2000000了，表示单个channel的大小改为2MB:

IDEA运行DataX完整流程（填完所有的坑）_intellij idea_08

2.4 步骤4：复制用到的插件

到这里编译后的包配置完成了，我们看下job文件夹下的job.json文件里面的内容：

{
    "job": {
        "setting": {
            "speed": {
                "byte":10485760
            },
            "errorLimit": {
                "record": 0,
                "percentage": 0.02
            }
        },
        "content": [
            {
                "reader": {
                    "name": "streamreader",
                    "parameter": {
                        "column" : [
                            {
                                "value": "DataX",
                                "type": "string"
                            },
                            {
                                "value": 19890604,
                                "type": "long"
                            },
                            {
                                "value": "1989-06-04 00:00:00",
                                "type": "date"
                            },
                            {
                                "value": true,
                                "type": "bool"
                            },
                            {
                                "value": "test",
                                "type": "bytes"
                            }
                        ],
                        "sliceRecordCount": 100000
                    }
                },
                "writer": {
                    "name": "streamwriter",
                    "parameter": {
                        "print": false,
                        "encoding": "UTF-8"
                    }
                }
            }
        ]
    }
}

可以看到这是一个简单的job示例任务，用到了streamreader以及streamwriter插件，所以我们首先在存放在桌面的datax目录下，新建一个plugin目录。

IDEA运行DataX完整流程（填完所有的坑）_大数据_09

再回到我们的工程，我们把编译后的streamreader插件和streamwriter插件复制到我们的plugin目录:

IDEA运行DataX完整流程（填完所有的坑）_ide_10

复制后：

IDEA运行DataX完整流程（填完所有的坑）_大数据_11

2.5 步骤5：配置运行环境

注意datax的启动类在src/main/java/com/alibaba/datax/core/Engine.java类里面，我们打开这个类，在启动箭头里右键“Create "Engine.main()”，点击来配置运行环境：

IDEA运行DataX完整流程（填完所有的坑）_ide_12

点击打开后，配置界面如下：

IDEA运行DataX完整流程（填完所有的坑）_maven_13

只需要配置以上三项即可：

配置项	配置内容	描述
VM options	-Ddatax.home=/Users/用户名/Desktop/datax	datax编译后存放的地址
Program arguments	-mode standalone -jobid -1 -job /Users/yanglinwei/Desktop/datax/job/job.json	运行需要的参数
JRE	1.8	官方建议使用jdk1.8