flink on yarn提交原理

原创

mob64ca12e3a791 2023-09-26 06:16:53 ©著作权

文章标签 应用程序 apache flink 文章分类 Yarn 大数据

©著作权归作者所有：来自51CTO博客作者mob64ca12e3a791的原创作品，请联系作者获取转载授权，否则将追究法律责任

Flink on YARN 提交原理

Apache Flink 是一个分布式流处理和批处理框架，它提供了可扩展的、高吞吐量和容错的数据处理能力。Flink 可以在各种不同的集群管理器上运行，包括 Hadoop YARN。

本文将介绍 Flink on YARN 的提交原理，并提供一个简单的代码示例来演示如何在 YARN 上提交 Flink 应用程序。

Flink on YARN 原理

在 YARN 上运行 Flink 应用程序的过程可以分为以下几个步骤：

打包 Flink 应用程序：首先，需要将 Flink 应用程序打包成一个可执行的 Jar 文件。该 Jar 文件应包含所有应用程序的依赖项，并且必须包含一个 main 方法作为应用程序的入口点。
创建 YARN 应用程序：在 YARN 上运行 Flink 应用程序需要先创建一个 YARN 应用程序。YARN 应用程序是一个逻辑上的实体，用于表示将在 YARN 上运行的程序。
提交应用程序：一旦 YARN 应用程序创建成功，就可以将 Flink 应用程序提交到 YARN 上。提交应用程序时，需要提供应用程序的 Jar 文件、应用程序的入口类和其他配置参数。
分配资源：一旦应用程序被提交到 YARN 上，YARN 会根据配置的资源需求为应用程序分配所需的资源，包括 CPU、内存和其他资源。
启动任务管理器：在分配到资源之后，YARN 会启动一个或多个任务管理器（TaskManager）进程来执行应用程序的任务。
执行应用程序：一旦任务管理器启动，它们将开始执行应用程序的任务。Flink 应用程序可以包括多个任务，每个任务可以并行执行。
监控和管理：在应用程序执行期间，可以通过 Flink 的 Web 界面或 YARN 的管理界面来监控和管理应用程序的状态和进度。

Flink on YARN 示例

下面是一个简单的示例，演示如何在 YARN 上提交一个 Flink 应用程序。假设我们有一个简单的 Flink 应用程序，用于统计输入文件中的单词数量。

首先，我们需要创建一个 Flink 应用程序，并将其打包成一个可执行的 Jar 文件。以下是一个简单的示例代码：

import org.apache.flink.api.java.ExecutionEnvironment;
import org.apache.flink.api.java.DataSet;

public class WordCount {

  public static void main(String[] args) throws Exception {
    final ExecutionEnvironment env = ExecutionEnvironment.getExecutionEnvironment();

    DataSet<String> text = env.fromElements(
      "Hello Flink",
      "Hello World",
      "Flink on YARN"
    );

    DataSet<Tuple2<String, Integer>> counts = text
      .flatMap((String line, Collector<Tuple2<String, Integer>> out) -> {
        for (String word : line.split(" ")) {
          out.collect(new Tuple2<>(word, 1));
        }
      })
      .groupBy(0)
      .sum(1);

    counts.print();
  }
}

在上述代码中，我们使用 Flink 的 Java API 创建了一个简单的 WordCount 应用程序。我们将输入数据作为字符串列表传递给 fromElements 方法，然后使用 flatMap、groupBy 和 sum 方法对数据进行转换和聚合操作，最后使用 print 方法打印结果。

接下来，我们需要创建一个 YARN 应用程序，并将其提交到 YARN 上。以下是一个简单的示例代码：

import org.apache.flink.client.program.PackagedProgram;
import org.apache.flink.client.program.ClusterClient;
import org.apache.flink.client.deployment.ClusterSpecification;
import org.apache.flink.client.deployment.application.ApplicationConfiguration;
import org.apache.flink.client.deployment.application.ApplicationConfigurationEntry;
import org.apache.flink.yarn.YarnClusterDescriptor;
import org.apache.flink.yarn.configuration.YarnClusterDescriptorConfiguration;
import org.apache.flink.configuration.Configuration;

public class SubmitFlinkApplication {

  public static void main(String[] args) throws Exception {
    // 创建 YARN 应用程序
    Configuration configuration = new Configuration();
    YarnClusterDescriptorConfiguration yarnConfig = YarnClusterDescriptorConfiguration.create(configuration);
    YarnClusterDescriptor clusterDescriptor = new YarnClusterDescriptor(yarnConfig);
    ClusterSpecification clusterSpecification = new ClusterSpecification.Cluster