java往hdfs写parquet文件

原创

mob64ca12dcc794 2025-01-15 06:40:50 ©著作权

©著作权归作者所有：来自51CTO博客作者mob64ca12dcc794的原创作品，请联系作者获取转载授权，否则将追究法律责任

Java往HDFS写Parquet文件的指南

在大数据世界中，Parquet是一种列式存储格式，被广泛用于数据分析。它能够高效地存储和处理大量数据。HDFS（Hadoop分布式文件系统）是大数据场景中常用的数据存储系统。在本文中，我们将介绍如何使用Java将Parquet文件写入HDFS，并提供详细的代码示例和可视化流程图。

1. 环境准备

在开始之前，请确保您的环境中已正确安装并配置了以下组件：

Hadoop
Apache Parquet依赖库
Maven（用于项目管理）
Java开发工具包（JDK）

您可以在pom.xml文件中添加以下依赖：

<dependencies>
    <dependency>
        <groupId>org.apache.hadoop</groupId>
        <artifactId>hadoop-client</artifactId>
        <version>3.3.1</version>
    </dependency>
    <dependency>
        <groupId>org.apache.parquet</groupId>
        <artifactId>parquet-avro</artifactId>
        <version>1.12.0</version>
    </dependency>
    <dependency>
        <groupId>org.apache.avro</groupId>
        <artifactId>avro</artifactId>
        <version>1.11.0</version>
    </dependency>
</dependencies>

2. 流程图

在开始编写代码之前，了解整个过程的步骤是很有帮助的。以下是将Parquet文件写入HDFS的流程图：

flowchart TD
    A[准备数据] --> B[初始化HDFS配置]
    B --> C[创建Schema]
    C --> D[写入Parquet文件]
    D --> E[关闭资源]

3. 步骤详解

3.1 准备数据

首先，我们需要准备要写入Parquet文件的数据。在这个示例中，我们将使用一个简单的Java类来表示数据。

import org.apache.avro.Schema;
import org.apache.avro.generic.GenericData;

public class User {
    private String name;
    private int age;

    // getters and setters
    public String getName() {
        return name;
    }

    public void setName(String name) {
        this.name = name;
    }

    public int getAge() {
        return age;
    }

    public void setAge(int age) {
        this.age = age;
    }
}

3.2 初始化HDFS配置

接下来，我们需要配置HDFS的连接信息。以下代码片段展示了如何初始化HDFS配置。

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;

public class HdfsUtil {
    private Configuration configuration;
    private FileSystem fileSystem;

    public HdfsUtil() throws Exception {
        configuration = new Configuration();
        configuration.set("fs.defaultFS", "hdfs://localhost:9000");
        fileSystem = FileSystem.get(configuration);
    }

    public FileSystem getFileSystem() {
        return fileSystem;
    }

    public Configuration getConfiguration() {
        return configuration;
    }
}

3.3 创建Schema

Parquet文件支持Avro Schema。我们需要为我们的数据创建Schema。

public class ParquetSchema {
    public static Schema getUserSchema() {
        return new Schema.Parser().parse(
            "{\n" +
            "  \"type\": \"record\",\n" +
            "  \"name\": \"User\",\n" +
            "  \"fields\": [\n" +
            "    {\"name\": \"name\", \"type\": \"string\"},\n" +
            "    {\"name\": \"age\", \"type\": \"int\"}\n" +
            "  ]\n" +
            "}");
    }
}

3.4 写入Parquet文件

利用定义好的Schema以及HDFS连接，我们可以开始将数据写入Parquet文件。以下是示例代码：

import org.apache.avro.FileWriter;
import org.apache.avro.generic.GenericDatumWriter;
import org.apache.parquet.avro.AvroParquetOutputFormat;
import org.apache.parquet.hadoop.ParquetOutputFormat;
import org.apache.parquet.hadoop.example.ExampleOutputFormat;

import java.io.IOException;
import java.util.ArrayList;
import java.util.List;

public class WriteParquetToHDFS {
    public static void main(String[] args) throws Exception {
        HdfsUtil hdfsUtil = new HdfsUtil();
        FileSystem fileSystem = hdfsUtil.getFileSystem();

        // 创建数据
        List<User> users = new ArrayList<>();
        User user1 = new User();
        user1.setName("Alice");
        user1.setAge(30);
        users.add(user1);

        User user2 = new User();
        user2.setName("Bob");
        user2.setAge(25);
        users.add(user2);

        // 写入Parquet文件
        Path path = new Path("/user/data/users.parquet");
        GenericDatumWriter<User> datumWriter = new GenericDatumWriter<>(ParquetSchema.getUserSchema());
        ParquetWriter<User> parquetWriter = AvroParquetOutputFormat.getParquetWriter(path, datumWriter);

        for (User user : users) {
            parquetWriter.write(user);
        }
        
        parquetWriter.close();
        hdfsUtil.getFileSystem().close();
    }
}