pdf 去水印 Java pdf 去水印方法

转载

mob6454cc6c40c9 2024-03-14 23:45:43

文章标签 pdf 去水印 Java python Python 字符串二维码 文章分类 Java 后端开发

方便快捷给 PDF 加水印

有文字创作需求的同学有时候会需要将自己的作品集结为 PDF 进行分发，一方面帮助自己整理归档，另一方面也有利于作品传播。类似的需求我们已经讲过《用 Python 抓取公号文章保存成 PDF》。

出于对盗版的担忧以及对自身权益的维护，很多人都会选择给自己的 PDF 加上专属的水印以标识出处。但各种 PDF 编辑器中加水印的逻辑不同，使用方式也大相径庭，有没有一种方式可以简单快捷地对 PDF 加上水印，同时保持逻辑的一致性呢？

显然此时我们又想到了我们的老朋友：Python。使用 Python 通过编程的方式来对 PDF 加水印还有一个显而易见的好处是：在操作过程中我们会拥有更大的自由度。我们可以根据自己的特殊要求任意定制加水印的逻辑。

我们就以《用 Python 抓取公号文章保存成 PDF》一文中得到的 PDF 为例进行演示。下图所示即为该 PDF 文档的一部分。

pdf 去水印 Java pdf 去水印方法_Python

1. 相应库

首先，要对 PDF 进行操作，只靠 Python 自带的库肯定是不够的，还需要求助于第三方库。这里我们用到的是PyPDF2这个库（好消息是，这个库不需要额外安装其他应用，开箱即可使用）。

安装方式大家已经很熟悉了，输入命令：

pip install PyPDF2

即可。

2. 测试库的功能

首先我们尝试从现有 PDF 文件中提取出第一页保存为新的 PDF 文件：

import PyPDF2

inputName = "input.pdf"
pdf = PyPDF2.PdfFileReader(inputName)
page = pdf.getPage(0)

outputObj = PyPDF2.PdfFileWriter()
outputObj.addPage(page)

with open("test.pdf", "wb") as f:
    outputObj.write(f)

PyPDF2 中有两个最常用的类：PdfFileReader和PdfFileWriter。顾名思义，这两个类分别用于读取 PDF 和写入 PDF。其中PdfFileReader传入参数可以是一个打开的文件对象，也可以是表示文件路径的字符串。而PdfFileWriter则必须传入一个以写方式打开的文件对象。

尤其要注意的是，不同于我们常见的代码、markdown 等文本格式，PDF 是二进制数据类型，因此在打开一个 PDF 格式的文件时，需要显式指定“以二进制格式写入文件内容”，即”wb"。

运行程序，打开test.pdf查看结果。可以看到效果与预期一致：

pdf 去水印 Java pdf 去水印方法_python_02

3. 加水印

要加水印首先要制作水印，出于演示目的我们也制作了本公众号对应的水印，用到了公众号的二维码和一句友好的提示语。如下图所示：

pdf 去水印 Java pdf 去水印方法_python_03

本文用到的水印、源 PDF 等文件均随示例代码一起发布，读者可以在之后自行尝试。

出于美观和尽量不影响阅读 PDF 内容的考虑，二维码和提示语的位置较偏且尺寸并不大，并且提示语的字体和颜色也不算醒目——如果是读者自用的话，就可以尽情挥洒创作激情，爱什么狂拽酷炫尽管往上堆也没人能反对哈哈。

首先，同时打开源 PDF 和作为水印的 PDF 文件。其中，水印 PDF 文件有且仅有一页，因此我们直接使用链式操作取出watermark.pdf文件的第一页作为变量watermark的值：

import PyPDF2

inputName = "input.pdf"
watermarkName = "watermark.pdf"
outputName = "output.pdf"

pdfInput = PyPDF2.PdfFileReader(inputName)
watermark = PyPDF2.PdfFileReader(watermarkName).getPage(0)

按照上一节复制 PDF 内容的套路，还需要再创建一个PyPDF2.PdfFileWriter对象：

pdfWriter = PyPDF2.PdfFileWriter()

然后很自然地，我们需要对源 PDF 文件的内容按页遍历，将每一页的内容逐页与水印内容合并。但应该如何来对 PDF 文件进行遍历呢？

我们现在只知道对于PyPDF2.PdfFileReader对象，有方法getPage可以以索引的方式取出对应页码的内容，该如何获得相应索引呢？

好在，PyPDF2.PdfFileReader还提供了一个属性字段numPages来表示该 PDF 文件的总页数——调用方法getNumPages可以得到同样的结果。

对于上面的代码，源 PDF 文件实际应为 10 页，我们输出相应值可以看到与实际一致：

print(pdfInput.numPages)	# 10
print(pdfInput.getNumPages())	# 10

这样我们就可以利用for循环和range来提供一个递增的索引，用以逐页取出 PDF 的内容了：

for i in range(pdfInput.numPages):
    page = pdfInput.getPage(i)

同时，对于单个的page对象，还存在一个名为mergePage的方法，接受另一个同为 PDF 中单个页面的对象，原地修改自身为两个页面合并之后的结果。PyPDF2.PdfFileWriter()则提供方法addPage，用以新增 PDF 页面：

for i in range(pdfInput.numPages):
    page = pdfInput.getPage(i)
    page.mergePage(watermark)
    pdfWriter.addPage(page)

循环结束之后，实际上我们加水印的工作已经基本完成。

之所以说是“基本”，是因为这个时候得到的“PDF 文件”实际上依然还只是存在于内存中的一个对象，虽然保存了我们想要的内容，但尚未保存到硬盘上，一旦程序执行结束就再也找不回来了。

因此我们还需要新建一个文件用以保存最终结果：

with open(outputName, "wb") as f:
    pdfWriter.write(f)

注意文件的打开方式为“wb”。

到这一步，我们加水印的工作已经全部完成，效果如下：

pdf 去水印 Java pdf 去水印方法_字符串_04

4. 番外：给 PDF 加密

一般来讲，我们在发布 PDF 的同时，可能需要对文件的权限进行一定的限制，比如阻止用户直接提取 PDF 内容，因此我们可以考虑对 PDF 进行加密。

在 PyPDF2 中，PyPDF2.PdfFileWriter()对象提供方法encrypt来对 PDF 文件加密，可以同时进行用户级和拥有者级加密。

默认情况下传入一个字符串作为密码，以该字符串作为密码同时进行两种加密；也可分别指定相应密码。

第三个参数接受一个布尔值，用以指示加密类型，默认为True，使用 128 位加密；为False时使用 40 位加密。视情况决定。不过对一般 PDF 而言，40 位加密已然足够，还能提升加密效率。

注意，在内容写入硬盘时可能需要耗时较长，因此若程序“假死”，需要耐心等待一段时间。

import PyPDF2


inputPDF = PyPDF2.PdfFileReader("output.pdf")
pdfWriter = PyPDF2.PdfFileWriter()

for i in range(inputPDF.numPages):
    page = inputPDF.getPage(i)
    pdfWriter.addPage(page)

pdfWriter.encrypt("user", "justdopython", False)
# pdfWriter.encrypt("justdopython")

with open("encrypted.pdf", "wb") as f:
    pdfWriter.write(f)

pdf 去水印 Java pdf 去水印方法_python_05