python 批量提取pdf首页

原创

mob64ca12d74a10 2024-08-13 04:29:09 ©著作权

文章标签 ci Python Text 文章分类 Python 后端开发

©著作权归作者所有：来自51CTO博客作者mob64ca12d74a10的原创作品，请联系作者获取转载授权，否则将追究法律责任

使用 Python 批量提取 PDF 首页

在处理 PDF 文档时，有时我们只需要提取每个 PDF 文件的首页信息。手动操作费时费力，因此可以使用 Python 编写一段脚本来自动化这个过程。本文将介绍如何使用 PyPDF2 库批量提取 PDF 文件的首页，并附上代码示例。

环境准备

在开始之前，请确保您已经安装了 PyPDF2 库。您可以使用以下命令通过 pip 安装该库：

pip install PyPDF2

代码示例

下面是一个简单的 Python 脚本，用于读取一个文件夹中的所有 PDF 文件并提取它们的首页。

import os
import PyPDF2

def extract_first_page(pdf_file):
    with open(pdf_file, 'rb') as file:
        reader = PyPDF2.PdfFileReader(file)
        if reader.numPages > 0:
            first_page = reader.getPage(0)
            return first_page.extractText()
        else:
            return None

def batch_extract_first_pages(folder_path):
    pdf_texts = {}
    for filename in os.listdir(folder_path):
        if filename.endswith('.pdf'):
            pdf_path = os.path.join(folder_path, filename)
            first_page_text = extract_first_page(pdf_path)
            pdf_texts[filename] = first_page_text
    return pdf_texts

if __name__ == '__main__':
    folder = 'path_to_your_pdf_folder'
    extracted_pages = batch_extract_first_pages(folder)
    for filename, text in extracted_pages.items():
        print(f"--- {filename} ---")
        print(text)

代码解析

extract_first_page(pdf_file)：该函数打开 PDF 文件，并使用 PyPDF2 提取首页内容。
batch_extract_first_pages(folder_path)：遍历指定文件夹中的所有 PDF 文件，调用 extract_first_page 函数提取首页内容，并将结果存储在字典中。
主程序部分设定了待处理的 PDF 文件夹路径，并打印每个 PDF 文件首页的内容。

关系图

为了更好地理解程序的结构，以下是一个简单的关系图，展示了PDF文件、提取函数和结果之间的关系：

erDiagram
    PDF_FILE {
        string filename
    }
    EXTRACT_FUNCTION {
        string function_name
    }
    RESULT {
        string text_content
    }
    PDF_FILE ||--o| EXTRACT_FUNCTION : uses
    EXTRACT_FUNCTION ||--o| RESULT : produces

流程图

接下来，我们可以通过序列图展示程序的执行流程，便于理解处理的顺序：

sequenceDiagram
    participant User as 用户
    participant Script as 脚本
    participant PDF as PDF文件
    participant Text as 文本内容

    User->>Script: 提供PDF文件夹路径
    Script->>PDF: 逐个读取PDF文件
    PDF->>Script: 返回首页内容
    Script->>Text: 保存首页文本
    Script->>User: 输出所有首页文本