学习python,不用再为pdf无法转换而烦恼~~~

下面我们介绍python读取pdf文件(主要是针对文字部分)

1、打开环境

2、安装pdfminer3k包

可以使用jupyter notebook进行安装,如下图所示:

Python 读取eps文件 python读取pdf文档_开发语言

安装成功,大功告成第一步。

3、导入相关的包:

from io import StringIO
 from pdfminer.pdfinterp import PDFResourceManager
 from pdfminer.pdfinterp import process_pdf
 from pdfminer.converter import TextConverter
 from pdfminer.layout import LAParams
 import re

如图:

Python 读取eps文件 python读取pdf文档_开发语言_02

4、定义一个读取pdf文档的函数:

 

def read_from_pdf(file_path):
     """
     读取pdf文件
     """
     with open(file_path,'rb') as file:
         resource_manager = PDFResourceManager()
         return_str = StringIO()
         lap_params = LAParams()
         device = TextConverter(resource_manager,return_str,laparams=lap_params)
         process_pdf(resource_manager,device,file)
         device.close()
         content = return_str.getvalue()
         return_str.close()
         return re.sub('\s+','',content)

Python 读取eps文件 python读取pdf文档_相对路径_03

 5、使用定义的函数进行测试实验:

read_from_pdf('葡萄酒数据挖掘.pdf')

根据你自己的pdf文件和具体情况进行实验,路径可以是绝对路径和相对路径,任意实验。

Python 读取eps文件 python读取pdf文档_python_04

实验效果还不错,学习起来吧~~~