大数据-111 Flink 安装部署 YARN部署模式 FlinkYARN模式申请资源、提交任务

精选原创

武子康1998 2024-09-10 15:38:38 ©著作权

文章标签 大数据 flink 分布式 spark java 文章分类 Python 后端开发

©著作权归作者所有：来自51CTO博客作者武子康1998的原创作品，请联系作者获取转载授权，否则将追究法律责任

点一下关注吧！！！非常感谢！！持续更新！！！

目前已经更新到了：

Hadoop（已更完）
HDFS（已更完）
MapReduce（已更完）
Hive（已更完）
Flume（已更完）
Sqoop（已更完）
Zookeeper（已更完）
HBase（已更完）
Redis （已更完）
Kafka（已更完）
Spark（已更完）
Flink（正在更新！）

章节内容

上节完成了如下的内容：

基础环境规划
集群规划
下载安装
Standalone模式启动

大数据-111 Flink 安装部署 YARN部署模式 FlinkYARN模式申请资源、提交任务_分布式

YARN模式部署

大数据-111 Flink 安装部署 YARN部署模式 FlinkYARN模式申请资源、提交任务_spark_02

环境变量

vim /etc/profile
export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop
export YARN_CONF_DIR=$HADOOP_HOME/etc/hadoop
export HADOOP_CLASSPATH=`hadoop classpath`

配置的结果如下图所示：

大数据-111 Flink 安装部署 YARN部署模式 FlinkYARN模式申请资源、提交任务_分布式_03

退出保存，并刷新环境变量。

yarn-site

cd /opt/servers/hadoop-2.9.2/etc/hadoop
vim yarn-site.xml

我们需要在原来的基础上，写入一些新的内容：

<!-- YRAN Flink 相关 -->
<property>
        <name>yarn.nodemanager.pmem-check-enabled</name>
        <value>false</value>
</property>
<property>
        <name>yarn.nodemanager.vmem-check-enabled</name>
        <value>false</value>
</property>
<property>
        <name>yarn.resourcemanager.address</name>
        <value>h123.wzk.icu:8032</value>
</property>
<property>
        <name>yarn.resourcemanager.scheduler.address</name>
        <value>h123.wzk.icu:8030</value>
</property>
<property>
        <name>yarn.resourcemanager.resource-tracker.address</name>
        <value>h123.wzk.icu:8031</value>
</property>

配置样式如下图所示：

大数据-111 Flink 安装部署 YARN部署模式 FlinkYARN模式申请资源、提交任务_flink_04

同步配置

我们需要在：

h121 节点
h122 节点
h123 节点
这三台机器上，都配置好一样的内容。

由于配置的过程基本重复，这里就跳过我配置的过程了，大致说一下需要配置的内容：

Flink环境
环境变量profile
yarn-site
停止Flink服务
停止Hadoop集群等服务
停止YARN集群等服务
重启Hadoop集群
重启YARN集群

我这里使用之前的 rsync-script 工具进行同步了：

大数据-111 Flink 安装部署 YARN部署模式 FlinkYARN模式申请资源、提交任务_分布式_05

漫长的等待之后，可以看到已经传输完毕了：

大数据-111 Flink 安装部署 YARN部署模式 FlinkYARN模式申请资源、提交任务_spark_06

停止Hadoop

cd /opt/servers/hadoop-2.9.2/sbin
stop-all.sh

h121

大数据-111 Flink 安装部署 YARN部署模式 FlinkYARN模式申请资源、提交任务_大数据_07

停止YARN集群

h123

h123节点执行（ResourceManager节点在这里）：

大数据-111 Flink 安装部署 YARN部署模式 FlinkYARN模式申请资源、提交任务_java_08

停止Flink

h121节点执行：

./stop-cluster.sh

大数据-111 Flink 安装部署 YARN部署模式 FlinkYARN模式申请资源、提交任务_分布式_09

停止结果

h121

（还剩下一个ZK的服务，非必须，想结束的话也可以结束掉）

大数据-111 Flink 安装部署 YARN部署模式 FlinkYARN模式申请资源、提交任务_java_10

h122

大数据-111 Flink 安装部署 YARN部署模式 FlinkYARN模式申请资源、提交任务_flink_11

h123

大数据-111 Flink 安装部署 YARN部署模式 FlinkYARN模式申请资源、提交任务_flink_12

启动Hadoop集群

一切确认没有问题之后，我们就可以重新启动了。

h121

start-all.sh

大数据-111 Flink 安装部署 YARN部署模式 FlinkYARN模式申请资源、提交任务_大数据_13

h122

大数据-111 Flink 安装部署 YARN部署模式 FlinkYARN模式申请资源、提交任务_flink_14

h123

大数据-111 Flink 安装部署 YARN部署模式 FlinkYARN模式申请资源、提交任务_spark_15

启动YARN集群

h123

为了防止YARN启动异常，我们需要到 h123 保证启动一次:

start-yarn.sh

大数据-111 Flink 安装部署 YARN部署模式 FlinkYARN模式申请资源、提交任务_java_16

申请资源

查看帮助

cd /opt/servers/flink-1.11.1/bin/
./yarn-session.sh -h

可以看到该脚本的说明如下：

大数据-111 Flink 安装部署 YARN部署模式 FlinkYARN模式申请资源、提交任务_java_17

测试脚本1 申请资源

./yarn-session.sh -n 2 -tm 800 -s 1 -d

上面的脚本的含义是：

-n 表示申请2个容器这里就是指多少个TaskManager
-s 表示每个TaskManager的Slots数量
-tm 表示每个 TaskManager的内存大小
-d 表示后台的方式运行程序

脚本1 解释

上面的脚本会向YARN申请3个Container，即便写的是2个，因为ApplicationMaster和JobManager有一个额外的容器，一旦将Flink部署到YARN集群中，就会显示JobManger的连接详细信息。

2个Container启动TaskManager -n 2，每个TaskManager拥有1个TaskSlots -s 1，并且向每个TaskManager的Container申请800M的内存，以及一个 ApplicationMaster jobManager
如果不想让Flink YRAN客户端始终运行，那么也可以启动分离的YARN会话，被参数被称为-d或–detached，这种情况下，Flink YARN客户端只会将Flink提交给集群，然后关闭它自己。

整个过程大概是：yarn-session.sh（开辟资源） + Flink run（提交任务）

使用Flink中的yarn-session，会启动两个必要服务JobManager和TaskManager
客户端通过Flink run提交作业
yarn-session 会一直启动，不停的接收客户端提交的作业
这种方式创建的Flink集群会独占资源
如果有大量的作业/任务较小、工作时间短，适合使用这种方式，减少资源创建的时间。

脚本1 执行结果

可以看到一些日志内容：

2024-07-24 16:34:33,236 WARN  org.apache.flink.yarn.configuration.YarnLogConfigUtil        [] - The configuration directory ('/opt/servers/flink-1.11.1/conf') already contains a LOG4J config file.If you want to use logback, then please delete or rename the log configuration file.
2024-07-24 16:34:33,381 INFO  org.apache.hadoop.yarn.client.RMProxy                        [] - Connecting to ResourceManager at h123.wzk.icu/124.223.26.81:8032
2024-07-24 16:34:33,724 INFO  org.apache.flink.runtime.util.config.memory.ProcessMemoryUtils [] - The derived from fraction jvm overhead memory (160.000mb (167772162 bytes)) is less than its min value 192.000mb (201326592 bytes), min value will be used instead
2024-07-24 16:34:33,734 INFO  org.apache.flink.runtime.util.config.memory.ProcessMemoryUtils [] - The derived from fraction jvm overhead memory (172.800mb (181193935 bytes)) is less than its min value 192.000mb (201326592 bytes), min value will be used instead
2024-07-24 16:34:34,210 INFO  org.apache.flink.yarn.YarnClusterDescriptor                  [] - The configured JobManager memory is 1600 MB. YARN will allocate 2048 MB to make up an integer multiple of its minimum allocation memory (1024 MB, configured via 'yarn.scheduler.minimum-allocation-mb'). The extra 448 MB may not be used by Flink.
2024-07-24 16:34:34,211 INFO  org.apache.flink.yarn.YarnClusterDescriptor                  [] - The configured TaskManager memory is 1728 MB. YARN will allocate 2048 MB to make up an integer multiple of its minimum allocation memory (1024 MB, configured via 'yarn.scheduler.minimum-allocation-mb'). The extra 320 MB may not be used by Flink.

运行过程如下图所示：

大数据-111 Flink 安装部署 YARN部署模式 FlinkYARN模式申请资源、提交任务_分布式_18

测试脚本2 提交运行

我们也可以直接在YARN上提交运行Flink作业（Run a Flink job on YARN）

./flink run -m yarn-cluster -yn 2 -yjm 1024 -ytm 1024 /opt/wzk//WordCount.jar

上述参数的一些解释：

-m JobManager 的地址
-yn TaskManager的个数

停止 yarn-cluster

yarn application -kill application_xxxxxxxxx

脚本2 解释

大数据-111 Flink 安装部署 YARN部署模式 FlinkYARN模式申请资源、提交任务_大数据_19

上一篇：大数据-112 Flink DataStreamAPI 程序输入源 DataSource 基于文件、集合、Kafka连接器

下一篇：大数据-122 - Flink Time Watermark Java代码测试实现Tumbling Window

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯