python 如何批量读取csv

原创

mob64ca12f2c96c 2025-02-04 05:01:27 ©著作权

©著作权归作者所有：来自51CTO博客作者mob64ca12f2c96c的原创作品，请联系作者获取转载授权，否则将追究法律责任

使用Python批量读取CSV文件

在数据分析和处理的过程中，CSV（Comma-Separated Values）文件是一种常见的数据存储格式。它因其简单易读的特性而广泛使用。然而，在实际工作中，往往我们并不是处理单个CSV文件，而是需要同时读取多个CSV文件，尤其是在数据采集和清洗阶段。本文将介绍如何使用Python批量读取CSV文件，并通过一个实际示例来帮助理解。

实际问题描述

假设我们受聘于一个电商平台，负责分析用户的购买数据。平台每天生成许多CSV文件，每个文件保存了当天用户的购买记录。文件的命名规则是：sales_YYYYMMDD.csv，例如：sales_20230901.csv、sales_20230902.csv等。我们的任务是要批量读取这些数据，并将它们整合成一个大的数据框，以便进行后续分析。

解决方案

我们可以利用Python的pandas库来处理CSV文件。以下是读取和整合多个CSV文件的具体步骤：

安装依赖库: 首先，确保你已经安装了pandas库。如果未安装，可以通过以下命令进行安装：
```
pip install pandas
```
确定文件路径: 找到存放CSV文件的目录。
使用glob模块获取文件列表: glob模块允许我们根据模式匹配找到文件。
读取CSV文件: 使用pandas的read_csv函数逐个读取文件并整合。
数据清洗和分析: 合并完成后，我们可以进行数据清洗和分析。

代码示例

以下是实现上述步骤的Python代码示例：

import pandas as pd
import glob
import os

# 设置CSV文件存储的目录
folder_path = 'path_to_your_csv_files'  # 修改为你的文件路径

# 获取所有CSV文件
csv_files = glob.glob(os.path.join(folder_path, 'sales_*.csv'))

# 初始化一个空的DataFrame用于存放所有数据
all_data = pd.DataFrame()

# 批量读取CSV文件
for file in csv_files:
    # 读取CSV文件
    df = pd.read_csv(file)
    # 将读取的数据添加到all_data中
    all_data = pd.concat([all_data, df], ignore_index=True)

# 输出整合后的数据
print(all_data)

代码解析

首先，我们使用glob.glob()方法来获取特定路径下以sales_开头且以.csv结尾的所有文件。
然后，通过pandas的read_csv()函数读取CSV文件。
pd.concat()函数用于将多个数据框整合成一个大的数据框。
最后，输出整合后的DataFrame。

数据清洗

整合后的数据可能包含一些缺失值或异常值。我们可以进一步进行数据清洗。例如，删除含有缺失值的行：

# 删除含有缺失值的行
cleaned_data = all_data.dropna()

可视化分析

让我们进一步分析整合后的数据，绘制一个简单的甘特图，以便展示不同日期的销售情况。在这里，我们假设我们的数据框中有Date和Sales两列。

甘特图示例

我们将使用Mermaid语法创建一个甘特图，展示不同日期的销售量。虽然Mermaid并不能直接在Python中渲染，但我们可以通过Markdown的渲染方式展示。

以下是一个简单的甘特图示例：

gantt
    title 销售数据甘特图
    dateFormat  YYYY-MM-DD
    section 销售数据
    2023-09-01 :done, des1, 2023-09-01, 1d
    2023-09-02 :done, des2, 2023-09-02, 1d
    2023-09-03 :active, des3, 2023-09-03, 1d

在这个甘特图中，我们为不同日期的销售数据分配了不同的任务，可以清晰地看到各个日期的销售情况。