spark 多个topic写hudi

原创

mob64ca12ec8020 2024-06-03 03:18:19 ©著作权

©著作权归作者所有：来自51CTO博客作者mob64ca12ec8020的原创作品，请联系作者获取转载授权，否则将追究法律责任

使用Hudi写入多个topic的数据

介绍

Apache Hudi 是一款开源的数据湖解决方案，可以用于实时流和批处理场景下的数据管理和分析。在实时流处理中，Spark结合Hudi可以实现对多个topic的数据进行写入和管理。本文将介绍如何使用Spark和Hudi来写入多个topic的数据，并提供相应的代码示例。

流程

下面是写入多个topic数据到Hudi的流程图：

graph LR
    A[接收Kafka流数据] --> B[Spark处理数据]
    B --> C[Hudi写入数据]

代码示例

首先，我们需要创建一个Spark应用程序来接收Kafka的流数据，并将数据写入Hudi。假设我们有两个Kafka的topic，分别为topic1和topic2。

```scala
import org.apache.spark.sql.SparkSession
import org.apache.hudi.DataSourceWriteOptions._
import org.apache.hudi.config.HoodieWriteConfig._
import org.apache.hudi.hive.MultiPartKeysValueExtractor

val spark = SparkSession.builder()
            .appName("Write to Hudi from Multiple Kafka Topics")
            .config("spark.serializer", "org.apache.spark.serializer.KryoSerializer")
            .getOrCreate()

val df1 = spark.readStream.format("kafka")
            .option("kafka.bootstrap.servers", "localhost:9092")
            .option("subscribe", "topic1")
            .load()

val df2 = spark.readStream.format("kafka")
            .option("kafka.bootstrap.servers", "localhost:9092")
            .option("subscribe", "topic2")
            .load()

df1.union(df2)
    .writeStream
    .format("hudi")
    .option(HUDI_TABLE_NAME_OPT_KEY, "hudi_table")
    .option(PRECOMBINE_FIELD_OPT_KEY, "timestamp")
    .option(RECORDKEY_FIELD_OPT_KEY, "record_key")
    .option(PARTITIONPATH_FIELD_OPT_KEY, "partition_path")
    .option(TABLE_NAME, "hudi_table")
    .option(HIVE_SYNC_ENABLED_OPT_KEY, "true")
    .option(HIVE_PARTITION_FIELDS_OPT_KEY, "partition_path")
    .option(HIVE_SYNC_TABLE_OPT_KEY, "hudi_table")
    .option(HIVE_DATABASE_OPT_KEY, "default")
    .option(HIVE_USER_OPT_KEY, "hive")
    .option(HOODIE_TABLE_TYPE_OPT_KEY, "COPY_ON_WRITE")
    .option(TABLE_TYPE_OPT_KEY, "COPY_ON_WRITE")
    .option(RECORDKEY_FIELD_OPT_KEY, "id")
    .option(PARTITIONPATH_FIELD_OPT_KEY, "partitionPath")
    .option(KEYGENERATOR_CLASS_OPT_KEY, classOf[SimpleKeyGenerator].getName)
    .start()
    .awaitTermination()


## 说明

- 代码中首先创建了一个SparkSession对象，然后分别从两个Kafka的topic中读取数据，并将两个DataFrame进行合并。
- 最后，将合并后的DataFrame写入Hudi表中，设置相关的Hudi配置项，如表名、分区键、Hive集成等。

## 结尾

通过以上代码示例，我们可以实现将多个Kafka的topic数据写入到Hudi表中，实现了实时流处理和数据管理。希望本文对你有所帮助，欢迎大家学习和探讨。