python读取文件夹中的多个csv文件

原创

mob64ca12d5dd85 2023-11-22 07:21:51 ©著作权

文章标签 CSV python 读取文件 文章分类 Python 后端开发

©著作权归作者所有：来自51CTO博客作者mob64ca12d5dd85的原创作品，请联系作者获取转载授权，否则将追究法律责任

Python读取文件夹中的多个CSV文件

在日常的数据分析和处理中，我们经常会遇到需要读取文件夹中多个CSV文件的情况。这种情况下，我们可以使用Python的一些库来快速遍历文件夹并读取其中的CSV文件。本文将介绍如何使用Python读取文件夹中的多个CSV文件，并给出相应的代码示例。

1. 准备工作

在开始之前，我们需要安装pandas库，它是Python中一个流行的用于数据处理和分析的库。我们可以使用以下命令来安装pandas库：

!pip install pandas

2. 读取文件夹中的CSV文件

首先，我们需要导入所需的库：

import os
import pandas as pd

接下来，我们可以使用os库中的listdir函数来获取指定文件夹中的所有文件名。我们可以指定文件夹的路径，例如folder_path = '/path/to/folder'。然后，我们可以使用列表推导式来过滤出CSV文件，并将它们存储在一个列表中：

folder_path = '/path/to/folder'
csv_files = [file for file in os.listdir(folder_path) if file.endswith('.csv')]

现在，csv_files列表中存储了文件夹中所有以.csv为后缀的文件名。

接下来，我们可以使用pandas库中的read_csv函数来读取CSV文件，并将它们存储在一个字典中。字典的键是文件名，值是对应的数据帧（DataFrame）对象。

data = {}
for file in csv_files:
    file_path = os.path.join(folder_path, file)
    data[file] = pd.read_csv(file_path)

现在，data字典中存储了每个CSV文件的数据帧对象。

3. 数据处理和分析

一旦我们将文件夹中的CSV文件读取到数据帧中，我们就可以对数据进行处理和分析了。例如，我们可以计算每个文件中的行数、列数，或者对数据进行汇总统计。

以下是一个示例，展示了如何计算每个CSV文件中的行数和列数，并将结果打印出来：

for file, df in data.items():
    num_rows = df.shape[0]
    num_columns = df.shape[1]
    print(f'{file}: {num_rows} rows, {num_columns} columns')

我们还可以使用pandas库中的各种函数和方法来进行更复杂的数据处理和分析操作。例如，我们可以使用describe函数计算每个文件中数值列的统计摘要：

for file, df in data.items():
    numeric_columns = df.select_dtypes(include='number').columns
    summary = df[numeric_columns].describe()
    print(f'{file}:\n{summary}')

4. 可视化分析结果

除了数据处理和分析，我们还可以将分析结果可视化。在本文中，我们将使用matplotlib库来绘制饼状图来展示每个文件中数值列和非数值列的比例。

首先，我们需要导入matplotlib库：

import matplotlib.pyplot as plt

接下来，我们可以定义一个函数来绘制饼状图：

def plot_pie_chart(data, labels):
    sizes = [len(data[label]) for label in labels]
    plt.pie(sizes, labels=labels, autopct='%1.1f%%', startangle=90)
    plt.axis('equal')
    plt.show()

然后，我们可以调用这个函数来绘制饼状图：

numeric_columns = ['column1', 'column2', 'column3']
non_numeric_columns = ['column4', 'column5', 'column6']

plot_pie_chart(data, numeric_columns)
plot_pie_chart(data, non_numeric_columns)