flink 用hadoop干啥的

原创

mob64ca12e20c7d 2024-09-23 06:34:29 ©著作权

文章标签 Hadoop HDFS flink 文章分类 Hadoop 大数据

©著作权归作者所有：来自51CTO博客作者mob64ca12e20c7d的原创作品，请联系作者获取转载授权，否则将追究法律责任

Flink 与 Hadoop 的结合使用

Apache Flink 是一个强大的大数据处理框架，而 Hadoop 是一个分布式存储和计算平台。将这两者结合起来使用，可以实现更高效的数据处理和存储。在本篇文章中，我们将通过一个简单的示例，教你如何使用 Flink 和 Hadoop 实现数据处理的整个流程。

流程概述

首先，我们来概述一下整个流程。可以用以下表格展示步骤：

步骤	描述
1	配置 Hadoop 环境
2	编写 Flink 作业
3	在 Hadoop 上运行 Flink 作业
4	收集和查看结果

接下来，我们逐步深入每一部分。

步骤详细说明

1. 配置 Hadoop 环境

首先确保您的 Hadoop 已经配置好，可以通过以下代码启动 Hadoop：

# 启动 HDFS 和 YARN
start-dfs.sh
start-yarn.sh

这两条命令分别启动 Hadoop 的分布式文件系统（HDFS）和资源管理器（YARN），以便于后续的数据存储和任务调度。

2. 编写 Flink 作业

在这一步，我们将编写一个简单的 Flink 作业，该作业从 Hadoop HDFS 中读取数据并进行处理。以下是一个基本的 Flink Java 示例代码：

import org.apache.flink.api.java.ExecutionEnvironment;
import org.apache.flink.api.java.DataSet;
import org.apache.flink.api.common.functions.MapFunction;

public class FlinkHadoopExample {
    public static void main(String[] args) throws Exception {
        // 创建 Flink 执行环境
        final ExecutionEnvironment env = ExecutionEnvironment.getExecutionEnvironment();
        
        // 从 HDFS 中读取数据
        DataSet<String> text = env.readTextFile("hdfs://localhost:9000/input/data.txt");
        
        // 对数据进行处理
        DataSet<Integer> counts = text.map(new MapFunction<String, Integer>() {
            @Override
            public Integer map(String value) throws Exception {
                // 计算每行的长度
                return value.length();
            }
        });

        // 将结果写入 HDFS
        counts.writeAsText("hdfs://localhost:9000/output/counts.txt");
        
        // 执行作业
        env.execute("Flink-Hadoop Example");
    }
}

代码注释：

ExecutionEnvironment.getExecutionEnvironment()：创建一个执行环境。
env.readTextFile(...)：从指定的 HDFS 路径读取文本文件。
text.map(...)：对读取的每一行数据进行处理，计算字符串的长度。
counts.writeAsText(...)：将处理后的结果写入HDFS。
env.execute(...)：执行 Flink 作业。

3. 在 Hadoop 上运行 Flink 作业

确保你的 Flink 环境已经安装，并将 Flink 作业打包成 jar 文件后，可以使用以下命令在 Hadoop 上运行：

# 提交 Flink 作业
flink run -m yarn-cluster -c your.package.FlinkHadoopExample your-flink-job.jar

这条命令会将 Flink 作业发送到 YARN 集群中进行处理。

4. 收集和查看结果

作业完成后，可以查看结果，使用以下命令可以在 HDFS 中查看处理结果：

# 查看输出结果
hdfs dfs -cat /output/counts.txt

这条命令将在终端中输出结果文件的内容，验证我们的 Flink 作业是否执行成功。

流程图

我们可以用 Mermaid 语法来展示上述操作的流程：

flowchart TD
    A[配置 Hadoop 环境] --> B[编写 Flink 作业]
    B --> C[在 Hadoop 上运行 Flink 作业]
    C --> D[收集和查看结果]

序列图

以下是一个简单的序列图，展示了 Flink 与 Hadoop 的交互过程：

sequenceDiagram
    participant User as 用户
    participant Flink as Flink
    participant Hadoop as Hadoop
    
    User->>Flink: 编写 Flink 作业
    Flink->>Hadoop: 读取 HDFS 数据
    Flink->>Flink: 处理数据
    Flink->>Hadoop: 写入处理结果
    User->>Hadoop: 查看结果