flink任务如何提交到远程的yarn上面

原创

mob649e81597922 2024-09-02 03:56:25 ©著作权

文章标签 flink apache bash 文章分类 Yarn 大数据

©著作权归作者所有：来自51CTO博客作者mob649e81597922的原创作品，请联系作者获取转载授权，否则将追究法律责任

Flink任务如何提交到远程的YARN上

Apache Flink 是一种分布式流处理框架，支持在多种资源管理系统上运行，其中YARN（Yet Another Resource Negotiator）是最常用的一种。将Flink任务提交到远程YARN集群上，可以充分利用YARN的资源管理能力，使得Flink可以高效地执行大规模数据流处理任务。本文将详细介绍如何将Flink任务提交到远程的YARN，并提供相应的代码示例。

1. 准备工作

在提交Flink任务之前，需要确保以下几个准备工作已经完成：

1.1 环境准备

安装Flink：请从Flink官网（[Apache Flink](
配置YARN：确保YARN已经安装并正确配置。你可以使用Hadoop分发包来安装YARN，并确保其正常运行。
环境变量：设置JAVA_HOME等环境变量，同时还需要将Flink的bin目录添加到PATH中，以便命令行能够直接使用Flink相关命令。

1.2 部署Flink集群

如果您使用的是YARN的集群模式，确保Flink已经在YARN上进行了适当的配置。通常，这涉及到以下操作：

修改Flink的flink-conf.yaml文件，确保设置以下参数：

jobmanager:
  address: yarn
  port: 8081

确保“yarn.application.classpath”包含Flink所需的所有依赖。

运行以下命令来上传Flink到YARN：

bin/yarn-session.sh

2. 提交Flink任务到YARN

提交Flink任务到YARN可以通过命令行或者Flink Dashboard等多种方式完成。在这里，我们集中介绍基于命令行的提交方式。

2.1 编写Flink程序

假设我们已经编写好了一个简单的Flink程序，以下是一个实现词频统计的示例：

import org.apache.flink.api.common.functions.MapFunction;
import org.apache.flink.api.java.tuple.Tuple2;
import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;
import org.apache.flink.streaming.api.functions.windowing.ProcessWindowFunction;
import org.apache.flink.util.Collector;

public class WordCount {
    public static void main(String[] args) throws Exception {
        // 创建执行环境
        final StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();

        // 读取数据
        env.socketTextStream("localhost", 9999)
            .flatMap((String line, Collector<Tuple2<String, Integer>> out) -> {
                for (String word : line.split(" ")) {
                    out.collect(new Tuple2<>(word, 1));
                }
            })
            .keyBy(value -> value.f0)
            .sum(1)
            .print();

        // 执行程序
        env.execute("Word Count Example");
    }
}

2.2 打包程序

将上述程序打包为可执行的JAR文件。使用Maven可以轻松完成这一步，示例的pom.xml如下：

<project>
    <modelVersion>4.0.0</modelVersion>
    <groupId>com.example</groupId>
    <artifactId>wordcount</artifactId>
    <version>1.0-SNAPSHOT</version>
    <dependencies>
        <dependency>
            <groupId>org.apache.flink</groupId>
            <artifactId>flink-streaming-java_2.12</artifactId>
            <version>1.14.0</version>
        </dependency>
        <dependency>
            <groupId>org.apache.flink</groupId>
            <artifactId>flink-connector-base_2.12</artifactId>
            <version>1.14.0</version>
        </dependency>
    </dependencies>
</project>

在项目根目录下运行以下命令以生成JAR文件：

mvn clean package

生成的JAR文件将位于target目录下。

2.3 提交任务

一旦您有了可执行的JAR文件，就可以将其提交到YARN了。使用以下命令提交任务：

bin/flink run -m yarn-cluster -c com.example.WordCount /path/to/your/wordcount-1.0-SNAPSHOT.jar

具体参数说明：

-m yarn-cluster：指定在YARN集群模式下运行。
-c com.example.WordCount：指定要运行的主类。
/path/to/your/wordcount-1.0-SNAPSHOT.jar：指向生成的JAR文件的绝对路径。

2.4 查看任务状态

任务提交成功后，可以通过访问Flink的Web界面来查看任务的状态。在YARN上，通常可以通过以下地址访问Flink的Web Dashboard：

http://<JobManager-Address>:8081

在Dashboard中，可以查看任务的执行情况，查看任务的日志，甚至可以取消运行中的任务。

3. 处理常见问题

提交任务至YARN后，可能会遇到以下问题：

3.1 任务失败

如果任务执行失败，通常可以通过Flink Dashboard查看原因。常见的错误有：

资源不足: YARN资源不足，无法提供足够的容器。
代码错误: 应用程序中的代码存在异常。

3.2 资源配置

在提交任务时，您可以通过以下参数调整YARN资源配置：

bin/flink run -m yarn-cluster -p 4 -yjm 1024 -ytm 2048 ...

-p：指定并行度。
-yjm：指定JobManager的内存。
-ytm：指定TaskManager的内存。

3.3 日志查看

任务运行的日志对于调试非常重要。可以通过YARN的ResourceManager界面查看容器的日志，或者直接在Flink Dashboard中查看。

4. 总结

通过将Flink任务提交到YARN集群，我们能够利用YARN的资源管理能力，使得Flink能够处理大规模流数据。本文详细介绍了从环境准备、程序编写到任务提交、问题处理的全过程，希望能帮助到正在使用Flink进行流处理的开发者。

在实际使用中，可以根据具体的业务需求和场景，灵活调整Flink的配置和资源，以达到最佳性能。如有更多疑问或需深入了解的内容，可以查阅[Apache Flink官方文档](

上一篇：docker怎么测试ping

下一篇：android 程序没有相响应重启

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯