Python从数百个Excel中批量查找数据

原创

mob64ca12f3496a 2024-08-26 06:27:04 ©著作权

©著作权归作者所有：来自51CTO博客作者mob64ca12f3496a的原创作品，请联系作者获取转载授权，否则将追究法律责任

Python 从数百个 Excel 中批量查找数据

在现代数据分析中，Excel 文件仍然是最常见的数据存储格式之一。无论是财务报表、市场研究还是运营数据，人工查找和分析这些数据通常是繁琐且费时的处理过程。因此，利用 Python 批量查找多个 Excel 文件中的数据，将大大提高工作效率。在这篇文章中，我们将探讨如何使用 Python 的 pandas 库来完成这一任务，并提供相关代码示例。

准备工作

首先，确保你的系统中已安装 pandas 和 openpyxl 库。你可以使用以下命令进行安装：

pip install pandas openpyxl

代码示例

以下是一个简单的示例代码，展示如何遍历一个文件夹中的多个 Excel 文件，并查找特定数据：

import pandas as pd
import os

# 指定包含 Excel 文件的目录
directory = 'path/to/excel/files'
# 指定要查找的关键词
search_term = '目标数据'

# 创建一个空的数据框以存储结果
results = pd.DataFrame()

# 遍历该目录中的所有 Excel 文件
for filename in os.listdir(directory):
    if filename.endswith('.xlsx'):  # 只处理以 .xlsx 结尾的文件
        file_path = os.path.join(directory, filename)
        df = pd.read_excel(file_path)  # 读取 Excel 文件
        
        # 查找包含目标数据的行
        matched_rows = df[df.apply(lambda x: x.astype(str).str.contains(search_term, na=False).any(), axis=1)]
        
        # 如果找到匹配的行，则将结果添加到结果数据框中
        if not matched_rows.empty:
            results = pd.concat([results, matched_rows], ignore_index=True)

# 输出结果
print(results)

在这个代码示例中，我们首先指定了包含 Excel 文件的目录和要查找的关键词。然后，使用 os.listdir 遍历目录中的所有文件，并检查是否为 Excel 文件。接着，读取每个 Excel 文件并查找包含目标数据的行，最后将所有结果合并到一个数据框中进行输出。

工作流程图

以下是上述代码的工作流程示意图：

sequenceDiagram
    participant User
    participant Python
    participant ExcelFiles

    User->>Python: 输入目录和目标数据
    Python->>ExcelFiles: 遍历目录中的每个文件
    ExcelFiles-->>Python: 返回Excel文件
    Python->>Python: 读取Excel文件
    Python->>Python: 查找目标数据
    Python->>User: 输出匹配结果

总结

利用 Python 进行批量查找 Excel 数据，不仅能够提高工作效率，还能减少人工查找带来的错误。通过 pandas 库，我们可以方便地读取和处理大量的数据，大幅提升数据处理的灵活性和准确性。希望本篇文章能为你在数据处理时提供帮助，让你的工作变得更加高效。如果你对 Python 和数据处理有兴趣，可以尝试更多功能，例如数据可视化和数据清洗，让数据分析变得更简单有趣。