python 解析 doc 文件 python pdf解析

转载

代码工匠大师 2023-10-10 17:07:16

文章标签 python 解析 doc 文件 kjb文件解析计算共形几何 pdf 文章分类 Python 后端开发

上次给大家介绍了 Python 如何操作 Word 和 Excel ，而今天想为大家再介绍下，用 Python 如何解析 PDF ，PDF 格式不像前面两个那么规范，从它的表现来看，它更像是一张图片，在一张白纸上把内容摆放在固定的位置上，没有逻辑结构。不过还是那句话，可以先了解下都能实现什么功能，以备不时之需。

正是因为 PDF 没有统一的规范，也没有逻辑结构，比如句子或段落，并且不能自适应页面大小的调整。今天要介绍的 PDFMiner 尝试通过猜测它们的布局来重建它们的结构，但是并不能保证一定能识别成功，尤其是对图片和表格的识别处理会差一些。

安装 PDFMiner

解析 PDF 需要用到 pdfminer 库，目前最新版本只支持 Python3.6 及以上，执行如下安装命令：

$ pip3 install pdfminer################# 运行结果 ################Collecting pdfminer  Downloading https://files.pythonhosted.org/packages/71/a3/155c5cde5f9c0b1069043b2946a93f54a41fd72cc19c6c100f6f2f5bdc15/pdfminer-20191125.tar.gz (4.2MB)     |████████████████████████████████| 4.2MB 2.8MB/s Collecting pycryptodome (from pdfminer)  Downloading https://files.pythonhosted.org/packages/cc/a6/f7e09ad45296eff20bd1db5aa14b1c9ea06826dd68eb2a7a27572c71d581/pycryptodome-3.9.4-cp37-cp37m-macosx_10_6_intel.whl (10.1MB)     |████████████████████████████████| 10.1MB 1.6MB/s Building wheels for collected packages: pdfminer  Building wheel for pdfminer (setup.py) ... done  Stored in directory: /Users/mjg/Library/Caches/pip/wheels/e1/00/af/720a55d74ba3615bb4709a3ded6dd71dc5370a586a0ff6f326Successfully built pdfminerInstalling collected packages: pycryptodome, pdfminerSuccessfully installed pdfminer-20191125 pycryptodome-3.9.4

OK，如果提示以上信息则安装成功。

解析概述

由于PDF文件有如此大和复杂的结构，完整解析 PDF 文件很费时费力的。因此 PDFMiner 采用了一个懒惰分析的策略，就是只分析你所需要的部分。换句话就是说，根据你自己的需要只解释出你要的那部分就可以了。这里有两个核心类是必须的 PDFParser 和 PDFDocument，除了这两个模块还有以下几个模块来配合使用。

模块名	说明
PDFParser	从文件中获取数据
PDFDocument	存储文档数据结构到内存中
PDFPageInterpreter	解析page内容
PDFDevice	把解析到的内容转化为你需要的东西
PDFResourceManager	存储共享资源，例如字体或图片等

下面这个图表示了 PDFMiner 各模块之间的关系，让我们能有个基本的认识：

python 解析 doc 文件 python pdf解析_计算共形几何 pdf_02

基本用法

首先我准备了一个 pdf 格式的文档，内容基本如下图这样：

python 解析 doc 文件 python pdf解析_计算共形几何 pdf_03

下面这段代码给出了 PDFMiner 解析 PDF 文档的基本方法，首先打开 pdf 文件，创建解析对象，存储文档结构，创建资源管理对象以及共享资源，然后再创建 device 对象，最后再创建文档解析对象，并处理文档中的每一页。是不是看起来很复杂，不过确实也挺麻烦，还是让我们直接看代码吧。

# pdf_1.py# 导入库from pdfminer.pdfparser import PDFParserfrom pdfminer.pdfdocument import PDFDocumentfrom pdfminer.pdfpage import PDFPagefrom pdfminer.pdfpage import PDFTextExtractionNotAllowedfrom pdfminer.pdfinterp import PDFResourceManagerfrom pdfminer.pdfinterp import PDFPageInterpreterfrom pdfminer.pdfdevice import PDFDevicefrom pdfminer.layout import LAParamsfrom pdfminer.converter import PDFPageAggregator# 设置文档密码password = ''#打开pdf文件fp = open('pdfminer.pdf','rb')#从文件句柄创建一个pdf解析对象parser = PDFParser(fp)#创建pdf文档对象，存储文档结构document = PDFDocument(parser,password)#创建一个pdf资源管理对象，存储共享资源rsrcmgr = PDFResourceManager()#创建一个device对象device = PDFDevice(rsrcmgr)#创建一个解释对象interpreter = PDFPageInterpreter(rsrcmgr, device)#处理包含在文档中的每一页for page in PDFPage.create_pages(document):    interpreter.process_page(page)

这样就完成了将页面对象加载的操作，下面通过命令 python pdf_1.py 运行程序，没有报错就说明页面信息已经成功加载至内存，然后我们就得想办法分别解析各类型信息，那都有哪些类型的对象呢？

解析对象

布局分析器把 pdf 文档中每一页返回为一个 LTPage 对象. 该对象包含该页面中的所有子对象，它们之间的关系大概如下图所示：

python 解析 doc 文件 python pdf解析_kjb文件解析_04

接下来我再列出一个表格具体说明下各对象：

对象名	对象说明	备注
LTPage	代表一个完整的页面，可以包含子对象	例如：LTTextBox,LTFigure,LTImage,LTRect,LTCurve和LTLine
LTTextBox	它包含 LTTextLine 对象的列表，代表一组被包含在矩形区域中的文本	注意：该box是根据几何学分析得到的，并不一定准确地表现为该文本的逻辑范围，get_text()方法可以返回文本内容
LTTextLine	包含一个LTChar对象的列表，表现为单行文本	字符表现为一行或一列，取决于文本书写方式，get_text()方法返回文本内容
LTChar	表示一个在文本中的真实的字母，作为一个unicode字符串	LTChar 对象有真实的分隔符
LTAnno	表示一个在文本中的真实的字母，作为一个unicode字符串	LTAnno 对象没有，是虚拟分隔符，按照两个字符之间的关系，布局分析器插入虚拟分隔符
LTFigure	表示一个被 PDF Form 对象使用的区域	pdf form适用于目前的图表(present figures)或者页面中植入的另一个pdf文档图片，LTFigure对象可以递归
LTImage	表示一个图形对象，可以是JPEG或者其他格式	但 PDFMiner 目前没有花太多精力在图形对象上
LTLine	表示一根直线	用来分割文本或图表(figures)
LTRect	表示一个矩形	用来框住别的图片或者图表
LTCurve	代表一个贝塞尔曲线

好了，了解以上对象都表示什么以后，现在我们写一段代码解析一个 pdf 并打印出来所解析的内容。

# pdf_2.py# 导入库from pdfminer.pdfparser import PDFParserfrom pdfminer.pdfdocument import PDFDocumentfrom pdfminer.pdfpage import PDFPagefrom pdfminer.pdfpage import PDFTextExtractionNotAllowedfrom pdfminer.pdfinterp import PDFResourceManagerfrom pdfminer.pdfinterp import PDFPageInterpreterfrom pdfminer.pdfdevice import PDFDevicefrom pdfminer.layout import *from pdfminer.converter import PDFPageAggregator# 提供初始密码password = ''# 没有密码可以初始密码# document.initialize()#打开pdf文件fp = open('pdfminer.pdf','rb')#从文件句柄创建一个pdf解析对象parser = PDFParser(fp)#创建pdf文档对象，存储文档结构document = PDFDocument(parser, password)#创建一个pdf资源管理对象，存储共享资源rsrcmgr = PDFResourceManager()laparams = LAParams()#创建一个device对象device = PDFPageAggregator(rsrcmgr, laparams=laparams)#创建一个解释对象interpreter = PDFPageInterpreter(rsrcmgr, device)#处理包含在文档中的每一页for page in PDFPage.create_pages(document):    interpreter.process_page(page)    layout = device.get_result()    for x in layout:        # 获取文本对象        if isinstance(x, LTTextBox):            print(x.get_text().strip())        # 获取图片对象        if isinstance(x,LTImage):            print('这里获取到一张图片')        # 获取 figure 对象        if isinstance(x,LTFigure):            print('这里获取到一个 figure 对象')

OK，这次我们把 pdf 文件加载到内存后，循环加载到每个页面对象，并遍历各个对象，使用 isinstance 方法判断对象的类型，将文本对象时直接打印出来，当为其他对象时打印一个字符串，返回结果如下图：

python 解析 doc 文件 python pdf解析_python 解析 doc 文件_05