flink 配置远程hadoop

原创

mob64ca12d39d4a 2025-01-24 06:54:11 ©著作权

文章标签 Hadoop xml hadoop 文章分类 Hadoop 大数据

©著作权归作者所有：来自51CTO博客作者mob64ca12d39d4a的原创作品，请联系作者获取转载授权，否则将追究法律责任

Flink 配置远程 Hadoop 的详细指南

Apache Flink 是一个高效的分布式数据处理引擎，而 Hadoop 则是一个强大的大数据存储和处理框架。将这两个框架结合起来，可以让您的数据处理工作更加高效。本文将指导您如何配置 Flink 使用远程 Hadoop，适合刚入行的小白。

整体流程

在开始之前，我们将整个过程拆分成几个步骤，并通过表格展示：

步骤	描述
第一步	安装必要的依赖
第二步	配置 Hadoop 和 HDFS 设置
第三步	配置 Flink 与远程 Hadoop 的连接
第四步	验证配置

详细步骤说明

第一步：安装必要的依赖

为了使 Flink 能够与 Hadoop 配合使用，您需要确保安装了 Hadoop 相关的依赖。

下载 Hadoop
您可以从[Hadoop官方网站]( Hadoop。
将 Hadoop 解压到某个目录
使用以下命令：
```
tar -xzf hadoop-<version>.tar.gz -C /usr/local/
```
此命令将 Hadoop 解压到 /usr/local/ 目录

第二步：配置 Hadoop 和 HDFS 设置

在 Hadoop 的配置目录中（例如 /usr/local/hadoop/etc/hadoop），您需要配置以下几个文件：

core-site.xml
您需要指定 HDFS 的 URI：

<configuration>
    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://<hadoop-ip>:<port>/</value>
    </property>
</configuration>

将 <hadoop-ip> 和 <port> 替换为您的 Hadoop 集群的 IP 地址和端口

hdfs-site.xml
设置 HDFS 的存储路径：

<configuration>
    <property>
        <name>dfs.replication</name>
        <value>3</value> <!-- 设置副本数 -->
    </property>
</configuration>

第三步：配置 Flink 与远程 Hadoop 的连接

在 Flink 的配置文件中（$FLINK_HOME/conf/flink-conf.yaml），需要添加以下配置：

设置 Hadoop 的依赖
将 Hadoop 的 jar 包链接复制到 Flink 的 lib 目录中：

cp /usr/local/hadoop/share/hadoop/common/*.jar $FLINK_HOME/lib/ 
cp /usr/local/hadoop/share/hadoop/hdfs/*.jar $FLINK_HOME/lib/

配置 flink-conf.yaml
在 flink-conf.yaml 文件中添加：
```
fs.default-scheme: hdfs://<hadoop-ip>:<port>
```
确保与上面 core-site.xml 中的配置一致

第四步：验证配置

启动 Flink 集群
```
$FLINK_HOME/bin/start-cluster.sh
```
启动 Flink 集群
提交测试任务
提交一个简单的 Flink 作业，以验证配置：
```
$FLINK_HOME/bin/flink run -c your.main.Class your-flink-job.jar
```
这是您用来测试配置的 Flink 作业

流程图示

sequenceDiagram
    participant User
    participant Hadoop
    participant Flink

    User->>Hadoop: 下载并配置Hadoop
    User->>Flink: 下载并配置Flink
    Flink->>Hadoop: 配置Hadoop依赖
    User->>Flink: 提交作业
    Flink->>Hadoop: 读取HDFS数据

甘特图

gantt
    title Flink与Hadoop配置流程
    dateFormat  YYYY-MM-DD
    section 安装依赖
    下载Hadoop           :a1, 2023-10-01, 1d
    解压Hadoop           :after a1  , 1d
    section 配置Hadoop
    编辑core-site.xml   :2023-10-03  , 1d
    编辑hdfs-site.xml    :after a1  , 1d
    section 配置Flink
    编辑flink-conf.yaml  :2023-10-05  , 1d
    section 验证配置
    启动Flink集群       :2023-10-06  , 1d
    提交测试作业        :after a5  , 1d