Python办公自动化 | 从PPT到Word

转载

Python进阶者 2023-04-26 11:24:36

文章标签 搜索引擎 nagios python csv 脚本语言 文章分类 Python 后端开发

今

日

鸡

汤

俱怀逸兴壮思飞，欲上青天揽明月。

大家好，又到了Python办公自动化系列。

在之前的自动化系列文章中，我们分别讲过如何使用Python将Word中表格信息批量提取至Excel，也讲过如何将多个Excel表格汇总至Word，今天继续讲解如何将文字从PPT中提取出来并写入Word，主要将涉及如何使用python-pptx和python-docx交互操作word和ppt文件！

本文依旧来源于真实的办公自动化需求！

一、需求说明

Python办公自动化 | 从PPT到Word_脚本语言

有一份如图所示的ppt，包含了Python的介绍。现在需要将PPT中的文字都提取出来并写入Word中，如下图

Python办公自动化 | 从PPT到Word_搜索引擎_02

二、涉及知识

代码实际上非常简单，基于python-pptx和python-docx两个模块即可，核心代码只有6行。但需要先熟悉PPT和Word两种文件的格式，可通过下面的图解对Word结构有个直观认识

Python办公自动化 | 从PPT到Word_csv_03

不考虑表格图片等情况，一个纯文字组成的Word文档由文档document-段落paragraph-文字块run三级结构组成。再看一下ppt结构组成，会较Word复杂许多。当然这也跟PPT的高度自定义拓展性有关

Python办公自动化 | 从PPT到Word_脚本语言_04

简单来说，一个PPT文件为presentation，基本的结构为展示文件presentation-幻灯片页slide-形状shape组成，形状就需要区分开，是包含文本的形状还是不包含文本的形状(纯图片等)。如果是包含文本的形状，则可以获取内部的文本框，一个文本框又可以看作是一个小的word文档，包含段落paragraph-文字块run

有了以上的知识铺垫就可以写代码了。

三、Python实现

首先导入需要的模块

from pptx import Presentation
from docx import Document****

需要注意的是，安装的时候是python-docx和python-pptx，但实际运用都是pptx和docx。两个模块的相似点如下：

安装名和导入名不同
安装名为 python-新版本后缀名，导入名为新版本后缀名

现在导入pptx文件，创建Word文件

wordfile = Document()
# 给定ppt文件所在的路径
filepath = r'xxxxxxxx'
pptx = Presentation(filepath)

接着遍历ppt，将文字写入word

# 遍历ppt文件的所有幻灯片页
for slide in pptx.slides:
    # 遍历幻灯片页的所有形状
    for shape in slide.shapes:
    # 判断形状是否含有文本框，如果含有则顺序运行代码
        if shape.has_text_frame:
            # 获取文本框  
            text_frame = shape.text_frame
            # 遍历文本框中的所有段落
            for paragraph in text_frame.paragraphs:
                # 将文本框中的段落文字写入word中
                wordfile.add_paragraph(paragraph.text)

遍历ppt到段落就写入Word，而非遍历到底直到文字块才写入，因为段落更符合阅读习惯，一般遍历到文字块是需要对特定的字段词块进行操作才进行，最后记得保存Word文件

save_path = r'xxxxxxxx'
wordfile.save(save_path)

小结

这是经过一定改编的真实案例，可见Python自动化办公确实能够帮助我们解放自己的双手，不过在写自动化脚本之前也要掌握原理，明确思路再进行！如果对本文的代码和数据感兴趣可以在后台回复自动化获取，最后还是希望大家能够理解Python办公自动化的一个核心就是批量操作-解放双手，让复杂的工作自动化！