java 后端把大的csv 能拆分多个csv

原创

mob64ca12efd81c 2024-08-21 05:55:50 ©著作权

©著作权归作者所有：来自51CTO博客作者mob64ca12efd81c的原创作品，请联系作者获取转载授权，否则将追究法律责任

如何在Java后端拆分大的CSV文件

在实际的开发工作中，有时我们需要处理很大的CSV文件，以便更方便地进行数据操作和分析。本篇文章将帮助你了解如何使用Java后端来拆分一个大的CSV文件，分解为多个较小的CSV文件。以下是整个流程和步骤。

处理流程

首先，我们将整个处理流程以表格方式呈现：

步骤	描述
1. 读取CSV文件	使用BufferedReader读取原始CSV文件
2. 统计行数	计算CSV文件行数以决定每个小文件的大小
3. 拆分文件	根据行数拆分原始CSV文件为多个较小的文件
4. 保存文件	将拆分出的数据保存到新的CSV文件中
5. 完成处理	输出处理完成的信息

每一步需要做什么

接下来，我们将详细讨论每一步所需的具体代码与实现。

步骤1：读取CSV文件

我们使用BufferedReader来读取CSV文件。下面是一段示例代码：

import java.io.BufferedReader;
import java.io.FileReader;
import java.io.IOException;

public class CSVSplitter {
    public static void main(String[] args) {
        String filePath = "largefile.csv"; // CSV文件路径
        try (BufferedReader br = new BufferedReader(new FileReader(filePath))) {
            String line;
            // 在这里我们会开始读取文件，每行做一些处理
        } catch (IOException e) {
            e.printStackTrace();
        }
    }
}

步骤2：统计行数

我们将统计行数以便决定如何拆分文件。可以扩展上面的代码：

int rowCount = 0; // 行计数器
while ((line = br.readLine()) != null) {
    rowCount++; // 每读取一行，增加计数
}
System.out.println("总行数: " + rowCount);

步骤3：拆分文件

假设我们希望每个小文件最多包含1000行，我们可以在内存中构建字符串并将其写入新文件：

int maxRows = 1000; // 每个小文件的最大行数
int currentFile = 0; // 当前文件编号
BufferedWriter writer = null;

while ((line = br.readLine()) != null) {
    if (rowCount % maxRows == 0) { // 每达到1000行就创建新文件
        if (writer != null) { // 如果写入器已打开，关闭它
            writer.close();
        }
        String newFilePath = "part" + (currentFile++) + ".csv"; // 新文件路径
        writer = new BufferedWriter(new FileWriter(newFilePath));
    }
    writer.write(line); // 写入行
    writer.newLine(); // 换行
}
if (writer != null) {
    writer.close(); // 处理结束，关闭写入器
}

步骤4：保存文件

在上述步骤中，我们已将拆分的数据保存到新的CSV文件中。

步骤5：完成处理

一旦所有文件都处理完成，可以输出处理结果：

System.out.println("CSV 文件已成功拆分为 " + currentFile + " 个文件。");

旅行图

下面展示了我们整个过程的旅行图。

journey
    title CSV拆分旅程
    section 读取CSV文件
      开始读取: 5: 角色
      读取文件结束: 3: 角色
    section 统计行数
      行数统计: 4: 角色
    section 拆分文件
      根据行数准备拆分: 5: 角色
      拆分完成: 5: 角色
    section 保存文件
      保存拆分文件: 5: 角色