python一次性读取文件夹全部csv

原创

mob64ca12ea4e24 2024-01-22 07:34:50 ©著作权

©著作权归作者所有：来自51CTO博客作者mob64ca12ea4e24的原创作品，请联系作者获取转载授权，否则将追究法律责任

Python一次性读取文件夹全部CSV

在数据处理和分析过程中，经常需要读取文件夹中的多个CSV文件，并将它们合并成一个数据集。Python提供了很多库来处理CSV文件，其中最常用的是pandas库。本文将介绍如何使用Python一次性读取文件夹中的全部CSV文件，并将它们合并成一个数据集。

准备工作

在开始之前，我们需要确保已经安装了pandas库。如果尚未安装，可以使用以下命令进行安装：

pip install pandas

读取单个CSV文件

首先，我们来了解如何读取单个CSV文件。假设我们有一个名为"example.csv"的CSV文件，其中包含了一些学生的信息。我们可以使用pandas库的read_csv()函数来读取该文件，并将其转换为一个数据帧（DataFrame）对象。

import pandas as pd

# 读取CSV文件
df = pd.read_csv("example.csv")

# 打印数据集的前几行
print(df.head())

上述代码首先导入了pandas库，然后使用read_csv()函数读取了"example.csv"文件，并将其转换为一个数据帧对象。最后，使用head()函数打印了数据集的前几行。

读取文件夹中的全部CSV文件

接下来，我们将介绍如何一次性读取文件夹中的全部CSV文件，并将它们合并成一个数据集。假设我们有一个名为"data"的文件夹，其中包含了多个CSV文件，每个文件都代表了不同时间段的数据。

首先，我们需要获取文件夹中所有的CSV文件的文件名。可以使用os库的listdir()函数来获取文件夹中的所有文件名，并使用列表推导式过滤出所有的CSV文件名。

import os

# 获取文件夹中所有的CSV文件名
folder_path = "data"
csv_files = [file for file in os.listdir(folder_path) if file.endswith(".csv")]

上述代码首先导入了os库，然后使用listdir()函数获取了文件夹中所有的文件名。使用列表推导式，我们过滤出所有的以".csv"结尾的文件名，并将它们保存在csv_files列表中。

接下来，我们可以使用pandas库的concat()函数来将多个数据集合并成一个数据集。这个函数接受一个数据集的列表作为参数，并返回一个合并后的数据集。

# 合并多个CSV文件
dfs = [pd.read_csv(os.path.join(folder_path, file)) for file in csv_files]
merged_df = pd.concat(dfs)

上述代码使用列表推导式遍历csv_files列表，每次读取一个CSV文件，并将其转换为一个数据帧对象。然后，将所有的数据帧对象保存在dfs列表中。最后，使用concat()函数将dfs列表中的所有数据集合并成一个数据集，并将结果保存在merged_df变量中。

至此，我们已经成功一次性读取了文件夹中的全部CSV文件，并将它们合并成一个数据集。可以使用head()函数打印合并后的数据集的前几行，以验证结果的正确性。

# 打印合并后的数据集的前几行
print(merged_df.head())

总结

本文介绍了如何使用Python一次性读取文件夹中的全部CSV文件，并将它们合并成一个数据集。首先，我们学习了如何读取单个CSV文件，使用了pandas库的read_csv()函数。然后，我们介绍了如何获取文件夹中所有CSV文件的文件名，使用了os库的listdir()函数和列表推导式。最后，我们学习了如何将多个数据集合并成一个数据集，使用了pandas库的concat()函数。

希望本文对你在处理CSV文件时有所帮助。如果你还有其他关于数据处理和分析的问题，可以随时在社区中提问。