FLink Yarn Per-job classpath

原创

mob64ca12f7e7cf 2023-08-25 14:54:16 ©著作权

©著作权归作者所有：来自51CTO博客作者mob64ca12f7e7cf的原创作品，请联系作者获取转载授权，否则将追究法律责任

Flink Yarn Per-job classpath实现流程

1. 概述

在使用Flink的Yarn部署模式时，可以通过配置Per-job classpath来控制每个作业的依赖库。Per-job classpath允许将作业所需的所有依赖项打包到一个自定义的目录中，并将该目录作为作业的类路径。这样可以避免与其他作业共享依赖项，提高作业的隔离性和可靠性。

本文将详细介绍Flink Yarn Per-job classpath的实现步骤，并提供相应的代码示例和解释。

2. 实现步骤

下表展示了实现Flink Yarn Per-job classpath的步骤：

步骤	操作
步骤 1	创建一个包含所有依赖项的目录
步骤 2	将作业打包成一个可执行的JAR文件
步骤 3	将JAR文件上传到HDFS
步骤 4	提交作业到Yarn集群

接下来，我们将逐步介绍每个步骤所需的操作和代码。

3. 详细步骤

步骤 1：创建一个包含所有依赖项的目录

首先，我们需要创建一个目录，用于存放作业所需的所有依赖项。可以将该目录命名为lib，并将所有的依赖项（例如JAR文件）放入该目录下。

步骤 2：将作业打包成一个可执行的JAR文件

接下来，我们需要将作业打包成一个可执行的JAR文件。可以使用Maven或Gradle等构建工具来实现此步骤。

以下是使用Maven将作业打包为JAR文件的示例代码：

```xml
<build>
    <plugins>
        <plugin>
            <artifactId>maven-assembly-plugin</artifactId>
            <version>3.3.0</version>
            <configuration>
                <descriptorRefs>
                    <descriptorRef>jar-with-dependencies</descriptorRef>
                </descriptorRefs>
            </configuration>
            <executions>
                <execution>
                    <phase>package</phase>
                    <goals>
                        <goal>single</goal>
                    </goals>
                </execution>
            </executions>
        </plugin>
    </plugins>
</build>


该示例代码将使用`maven-assembly-plugin`插件将作业及其所有依赖项打包为一个可执行的JAR文件。打包后的JAR文件可以在`target`目录下找到。

#### 步骤 3：将JAR文件上传到HDFS

在将作业提交到Yarn集群之前，我们需要将JAR文件上传到HDFS。可以使用Hadoop的命令行工具（例如`hdfs dfs`）或编程方式（例如Java API）来实现此步骤。

以下是使用命令行工具将JAR文件上传到HDFS的示例代码：

```markdown
```shell
hdfs dfs -put <本地文件路径> <HDFS目标路径>


该示例代码将本地的JAR文件上传到HDFS的目标路径。

#### 步骤 4：提交作业到Yarn集群

最后，我们需要将作业提交到Yarn集群。可以使用Flink提供的`YarnClusterDescriptor`类来实现此步骤。

以下是提交作业到Yarn集群的示例代码：

```markdown
```java
Configuration flinkConfig = new Configuration();
YarnClusterDescriptor yarnClusterDescriptor = new YarnClusterDescriptor(flinkConfig);
yarnClusterDescriptor.setClasspaths(Lists.newArrayList(<HDFS目录路径>));
ClusterSpecification clusterSpecification = new ClusterSpecification.ClusterSpecificationBuilder().createClusterSpecification();
ClusterClient<ApplicationId> clusterClient = yarnClusterDescriptor.deployJobCluster(clusterSpecification, <作业名称>, <JAR文件路径>, true);


该示例代码使用`YarnClusterDescriptor`类来配置Flink作业的Yarn集群环境。其中，`setClasspaths`方法用于设置Per-job classpath，传入的参数为一个包含依赖项的HDFS目录路径。`deployJobCluster`方法用于提交作业到Yarn集群