Python Docx 读取为 TXT:新手指南

在这个指南中,我们将学习如何使用 Python 的 python-docx 库读取 Word 文档(.docx 格式)并将其内容保存为文本文件(.txt 格式)。如果你是一名刚入行的小白,不用担心,我们会详细讲解每一个步骤,并附上它们的注释。

流程概述

为了实现这个目标,我们需要遵循以下步骤:

步骤 说明
1 安装 python-docx
2 导入库和读取 Word 文档
3 提取内容并保存为 TXT 文件
4 运行代码并检查输出

每一步的详细说明

步骤 1: 安装 python-docx

首先,我们需要确保安装了 python-docx 库。这是读取 Word 文档所需的库,可以通过 pip 安装。在你的命令行中输入以下命令:

pip install python-docx

步骤 2: 导入库和读取 Word 文档

一旦库安装成功,我们可以在 Python 脚本中导入它,并读取我们要处理的 Word 文档。以下是相关代码:

# 导入 Documents模块, 用于读取 docx 文件
from docx import Document

# 定义函数,读取 Word 文档
def read_docx(file_path):
    # 加载 docx 文件
    doc = Document(file_path)
    # 存储文本内容
    text = []
    # 迭代每个段落,将内容添加到列表中
    for para in doc.paragraphs:
        text.append(para.text)
    # 返回文本内容
    return '\n'.join(text)

# 示例:指定 Word 文件的路径
file_path = 'example.docx'

步骤 3: 提取内容并保存为 TXT 文件

接下来,我们将提取的内容保存为 TXT 文件。这是一项简单的文件操作。以下是实现这一操作的代码:

# 定义函数,将文本保存为 TXT 文件
def save_as_txt(text, output_file):
    # 打开文件并写入内容
    with open(output_file, 'w', encoding='utf-8') as f:
        f.write(text)

# 使用之前定义的函数提取文本
extracted_text = read_docx(file_path)
# 保存到指定的 TXT 文件中
save_as_txt(extracted_text, 'output.txt')

步骤 4: 运行代码并检查输出

在你完成了以上代码后,运行你的 Python 脚本。如果没有错误,检查当前目录下的 output.txt 文件,确保它包含了你 Word 文档中的文本内容。

代码示例总结

将上面的所有代码结合在一起,我们最终得到了以下完整的 Python 脚本:

from docx import Document

def read_docx(file_path):
    doc = Document(file_path)
    text = []
    for para in doc.paragraphs:
        text.append(para.text)
    return '\n'.join(text)

def save_as_txt(text, output_file):
    with open(output_file, 'w', encoding='utf-8') as f:
        f.write(text)

# 示例:指定 Word 文件的路径
file_path = 'example.docx'
extracted_text = read_docx(file_path)
save_as_txt(extracted_text, 'output.txt')

序列图

在这个过程中,代码的执行流程可以用以下序列图表示:

sequenceDiagram
    participant User
    participant Script
    participant DocxLibrary

    User->>Script: 输入文件路径
    Script->>DocxLibrary: 读取文档
    DocxLibrary-->>Script: 返回文档内容
    Script->>Script: 格式化内容
    Script->>User: 输出为 TXT 文件

类图

可以用以下类图来表示这个过程中的数据结构:

classDiagram
    class Document {
        +paragraphs: list
    }
    
    class Paragraph {
        +text: string
    }
    
    Document --> Paragraph : contains

结尾

通过上述步骤,你可以轻松地将 Word 文档中的内容读取并保存为文本文件。在这个过程中,我们不仅学会了如何使用 python-docx 读取文档,还体验了 Python 中常见的文件操作。希望这篇文章能帮助你快速上手,解决实际问题!如果你有任何疑问,随时可以提出。欢祝你在编程的道路上继续前行!