flink消费kafka数据存到mysql java

原创

mob64ca12f10f72 2024-08-08 18:10:30 ©著作权

©著作权归作者所有：来自51CTO博客作者mob64ca12f10f72的原创作品，请联系作者获取转载授权，否则将追究法律责任

使用Flink消费Kafka数据并存储到MySQL

随着大数据技术的广泛应用，Apache Flink作为一种大规模数据处理引擎逐渐受到重视。Flink能够实时处理数据流并将其存入数据库，例如MySQL。本文将讲解如何利用Flink消费Kafka中的数据并将其写入MySQL数据库，同时提供具体的代码示例来帮助理解。

1. 项目准备

在开始之前，你需要准备以下工具和环境：

Java JDK 8+
Apache Maven
Apache Flink
Apache Kafka
MySQL数据库

首先，确保已安装和启动Kafka及MySQL服务，并创建Kakfa主题及MySQL数据表：

Kafka主题创建

使用以下命令创建Kafka主题：

kafka-topics.sh --create --topic test-topic --bootstrap-server localhost:9092 --partitions 1 --replication-factor 1

MySQL数据表创建

在MySQL中创建一个名为user的数据表：

CREATE TABLE user (
    id INT PRIMARY KEY AUTO_INCREMENT,
    name VARCHAR(100) NOT NULL,
    age INT NOT NULL
);

2. Maven项目结构

创建一个Maven项目，并在pom.xml中添加依赖项：

<dependencies>
    <dependency>
        <groupId>org.apache.flink</groupId>
        <artifactId>flink-java</artifactId>
        <version>1.15.0</version>
    </dependency>
    <dependency>
        <groupId>org.apache.flink</groupId>
        <artifactId>flink-connector-kafka_2.12</artifactId>
        <version>1.15.0</version>
    </dependency>
    <dependency>
        <groupId>mysql</groupId>
        <artifactId>mysql-connector-java</artifactId>
        <version>8.0.23</version>
    </dependency>
    <dependency>
        <groupId>org.apache.flink</groupId>
        <artifactId>flink-streaming-java_2.12</artifactId>
        <version>1.15.0</version>
    </dependency>
</dependencies>

3. 编写Flink程序

接下来，编写Flink程序来消费Kafka数据并存储到MySQL。以下是一个简单的示例：

import org.apache.flink.api.common.serialization.SimpleStringSchema;
import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;
import org.apache.flink.streaming.connectors.kafka.FlinkKafkaConsumer;
import org.apache.flink.streaming.api.datastream.DataStream;
import org.apache.flink.streaming.util.serialization.JSONKeyValueDeserializationSchema;

import java.sql.Connection;
import java.sql.DriverManager;
import java.sql.PreparedStatement;
import java.sql.SQLException;

public class FlinkKafkaToMySQL {

    public static void main(String[] args) throws Exception {
        // 创建流执行环境
        final StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();

        // Kafka消费者配置
        String kafkaTopic = "test-topic";
        String kafkaBootstrapServers = "localhost:9092";

        // 创建Kafka消费者
        FlinkKafkaConsumer<String> consumer = new FlinkKafkaConsumer<>(
                kafkaTopic,
                new SimpleStringSchema(),
                properties()
        );

        // 获取Kafka数据
        DataStream<String> stream = env.addSource(consumer);

        // 处理数据并写入MySQL
        stream.foreach(value -> {
            String[] fields = value.split(",");
            String name = fields[0];
            int age = Integer.parseInt(fields[1]);
            insertIntoMySQL(name, age);
        });

        // 执行Flink任务
        env.execute("Flink Kafka to MySQL");
    }

    private static void insertIntoMySQL(String name, int age) {
        String jdbcUrl = "jdbc:mysql://localhost:3306/test_db";
        String username = "root";
        String password = "password";

        try (Connection connection = DriverManager.getConnection(jdbcUrl, username, password)) {
            String insertSQL = "INSERT INTO user (name, age) VALUES (?, ?)";
            try (PreparedStatement preparedStatement = connection.prepareStatement(insertSQL)) {
                preparedStatement.setString(1, name);
                preparedStatement.setInt(2, age);
                preparedStatement.executeUpdate();
            }
        } catch (SQLException e) {
            e.printStackTrace();
        }
    }

    private static Properties properties() {
        Properties properties = new Properties();
        properties.setProperty("bootstrap.servers", "localhost:9092");
        properties.setProperty("group.id", "test-group");
        return properties;
    }
}

代码解析

创建StreamExecutionEnvironment：Flink程序的入口，负责执行任务。
配置Kafka消费者：指定Kafka的主题和服务器地址。
消费数据流：通过foreach将数据处理并插入到MySQL中。
插入数据库：使用JDBC连接MySQL，并执行插入操作。

4. 任务执行甘特图

通过以下甘特图，可以清晰地看到任务执行的不同阶段：

gantt
    title Flink任务执行甘特图
    dateFormat  YYYY-MM-DD
    section 数据流初始化
    创建流执行环境  :active, 2023-10-01, 1d
    section Kafka配置
    配置Kafka消费者 :active, 2023-10-02, 1d
    section 数据处理
    消费Kafka数据    :active, 2023-10-03, 1d
    数据插入MySQL    :active, 2023-10-04, 1d

5. 数据流转旅行图

以下旅行图展示了数据从Kafka到MySQL的流程：

journey
    title 从Kafka消费数据到MySQL存储的旅程
    section Kafka 数据获取
      Kafka 主题                  : 5: 没问题
      Flink 消费                 : 5: 没问题
    section 数据处理
      解析消息                   : 4: 小问题
      准备数据库连接              : 5: 没问题
    section 数据存储
      数据插入                  : 3: 有待改进