python处理pdf文件 python怎么处理pdf文件

转载

mob6454cc71b244 2023-08-28 11:37:02

文章标签 python处理pdf文件 Image 验证码 Python 文章分类 Python 后端开发

一、Python处理pdf文件

1.1、Python读出pdf文件

#!/usr/bin/env python
# -*- coding: utf-8 -*-
# @Time    : 2018/06/09 14:46
# @Author  : hewj
# @File    : demon1.py

from pdfminer.pdfparser import PDFParser, PDFDocument
from pdfminer.pdfparser import PDFPage
from pdfminer.pdfinterp import PDFResourceManager, PDFTextExtractionNotAllowed
from pdfminer.pdfinterp import PDFPageInterpreter
from pdfminer.pdfdevice import PDFDevice
from pdfminer.layout import LAParams
from pdfminer.converter import PDFPageAggregator
#获取文档对象，你把algorithm.pdf换成你自己的文件名即可。
fp=open("test.pdf","rb")
#创建一个与文档相关联的解释器
parser=PDFParser(fp)
#PDF文档对象,提供密码初始化，没有就不用带password参数。
doc=PDFDocument()

parser.set_document(doc)
doc.set_parser(parser)

doc.initialize()
#检查文件是否允许文本提取
if not doc.is_extractable:
    raise PDFTextExtractionNotAllowed
#链接解释器和文档对象
# parser.set_document(doc)
#doc.set_paeser(parser)
#初始化文档
#doc.initialize("")
#创建PDF资源管理器对象来存储共享资源
resource=PDFResourceManager()
#参数分析器
laparam=LAParams()
#创建一个聚合器
device=PDFPageAggregator(resource, laparams=laparam)
#创建PDF页面解释器
interpreter=PDFPageInterpreter(resource,device)
#使用文档对象得到页面集合
for page in doc.get_pages():
  #使用页面解释器来读取
  interpreter.process_page(page)
  #使用聚合器来获取内容
  layout=device.get_result()
  for out in layout:
    if hasattr(out, "get_text"):
      print(out.get_text())

1.2、抓取每个的网页，然后生成pdf文件

import codecs
import os
import sys

import pdfkit
import requests

base_url = 'http://www.okay686.cn/'
if not os.path.exists("okay686"):
    os.mkdir("okay686")

os.chdir("okay686")
s = requests.session()

for i in range(1, 27):
    url = base_url + 'chapter' + str(i) + '.html'
    print(url)
    file = str(i) + '.pdf'
    print(file)
    config = pdfkit.configuration(wkhtmltopdf=r"D:\Program Files\wkhtmltopdf\bin\wkhtmltopdf.exe")
    try:
        pdfkit.from_url(url, file)
    except:
        continue

1.3、Html转pdf文件

合并多个pdf文件为一个pdf文件
import PyPDF2

import os   #建立一个装pdf文件的数组

pdfFiles = []

for fileName in os.listdir('okay686'):    #遍历该程序所在文件夹内的文件    
    if fileName.endswith('.pdf'):   #找到以.pdf结尾的文件            
        pdfFiles.append(fileName)   #将pdf文件装进pdfFiles数组内
# pdfFiles.sort()   #文件排序
print(pdfFiles)
os.chdir("okay686")
pdfWriter = PyPDF2.PdfFileWriter()     #生成一个空白的pdf文件
for fileName in pdfFiles:
    pdfReader = PyPDF2.PdfFileReader(open(fileName,'rb'))   #以只读方式依次打开pdf文件
    for pageNum in range(pdfReader.numPages):           
        print(pdfReader.getPage(pageNum))        
        pdfWriter.addPage(pdfReader.getPage(pageNum))    #将打开的pdf文件内容一页一页的复制到新建的空白pdf里
pdfOutput = open('combine.pdf','wb')     #生成combine.pdf文件
pdfWriter.write(pdfOutput)               #将复制的内容全部写入combine.pdf
pdfOutput.close()

二、Python处理图片

图像处理是一门应用非常广的技术，而拥有非常丰富第三方扩展库的 Python 当然不会错过这一门盛宴。PIL （Python Imaging Library）是 Python 中最常用的图像处理库，如果你是python2.x，可以通过以下地址进行下载：http://www.pythonware.com/products/pil/index.htm，找到相对应的版本进行下载就可以了。

注意：PIL模块在python3.x中已经替换成pillow模块

直接使用

pip3 install pillow

即可安装模块，导入时使用from PIL import Image.

from PIL import Image

image = Image.open("1.jpg")
print(image.format, image.size, image.mode)
image.show()

结果：

JPEG (1080, 1920) RGB 并把图片打开，展示出来

2.1 Image的三个属性：

format : 识别图像的源格式，如果该文件不是从文件中读取的，则被置为 None 值。

size : 返回的一个元组，有两个元素，其值为象素意义上的宽和高。

mode : RGB（true color image），此外还有，L（luminance），CMTK（pre-press image）。
Image的方法介绍：
	show()：显示最近加载的图像
	open(infilename):  打开文件
	save(outfilename)：保存文件
	crop((left, upper, right, lower))：从图像中提取出某个矩形大小的图像。它接收一个四元素的元组作为参数，各元素为（left, upper, right, lower），坐标系统的原点（0, 0）是左上角。

2.2、抠图

需求，把头像给截图出来：

from PIL import Image
image = Image.open("1.jpg")
print(image.format, image.size, image.mode)
box = (600, 300, 1050, 660)
region = image.crop(box)
region.save("cutting.jpg")
上述代码讲图片的((600, 300), (600, 660), (1050, 300), (1050, 660))所画出来的区域进行裁剪，并保存在cutting.jpg中

2.3、图片拼合

from PIL import Image
image = Image.open("1.jpg")
print(image.format, image.size, image.mode)
box = (600, 300, 1050, 660)
egion = image.crop(box)
#egion.save("cutting.jpg")
region = egion.transpose(Image.ROTATE_180)
image.paste(region, box)
image.show()

把头像照片截取出来，然后调换头像照片180度，然后在拼接在一起，

2.4、缩放：

from PIL import Image

infile = "2.jpg"
outfile = "new2.jpg"
image = Image.open(infile)
(x, y) = image.size
newx = 300
newy = int(y*newx/x)
out = image.resize((newx, newy), Image.ANTIALIAS)
out.show()

2.5、验证码

import random
import string
import sys
import math
from PIL import Image, ImageDraw, ImageFont, ImageFilter

# 字体的位置，不同版本的系统会有不同
font_path = 'msyh.ttf'
# 生成几位数的验证码
number = 4
# 生成验证码图片的高度和宽度
size = (100, 30)
# 背景颜色，默认为白色
bgcolor = (255, 255, 255)
# 字体颜色，默认为蓝色
fontcolor = (0, 0, 255)
# 干扰线颜色。默认为红色
linecolor = (255, 0, 0)
# 是否要加入干扰线
draw_line = True
# 加入干扰线条数的上下限
line_number = 20


# 用来随机生成一个字符串
def gene_text():
    source = list(string.ascii_letters)
    for index in range(0, 10):
        source.append(str(index))
    return ''.join(random.sample(source, number))  # number是生成验证码的位数


# 用来绘制干扰线
def gene_line(draw, width, height):
    begin = (random.randint(0, width), random.randint(0, height))
    end = (random.randint(0, width), random.randint(0, height))
    draw.line([begin, end], fill=linecolor)


# 生成验证码
def gene_code():
    width, height = size  # 宽和高
    image = Image.new('RGBA', (width, height), bgcolor)  # 创建图片
    font = ImageFont.truetype(font_path, 25)  # 验证码的字体
    draw = ImageDraw.Draw(image)  # 创建画笔
    text = gene_text()  # 生成字符串
    font_width, font_height = font.getsize(text)
    draw.text(((width - font_width) / number, (height - font_height) / number), text, font=font, fill=fontcolor)  # 填充字符串
    if draw_line:
        for i in range(line_number):
            gene_line(draw, width, height)

    # image = image.transform((width + 20, height + 10), Image.AFFINE, (1, -0.3, 0, -0.1, 1, 0), Image.BILINEAR)  # 创建扭曲
    image = image.filter(ImageFilter.EDGE_ENHANCE_MORE)  # 滤镜，边界加强
    image.save('idencode.png')  # 保存验证码图片
    # image.show()


if __name__ == "__main__":
    gene_code()

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

上一篇：plsql 转mysql plsql转mysql建表语句

下一篇：java 获取指定字符串后面的字符 java 获取字符串位置

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯

python处理pdf文件 python怎么处理pdf文件

python处理pdf文件 python怎么处理pdf文件

一、Python处理pdf文件

1.1、Python读出pdf文件

1.2、抓取每个的网页，然后生成pdf文件

1.3、Html转pdf文件

二、Python处理图片

2.1 Image的三个属性：

2.2、抠图

2.3、图片拼合

2.4、缩放：

2.5、验证码

51CTO博客