pdf转成wordl乱码 python pdf转换成word出现乱码

转载

mob6454cc7acbf7 2023-10-26 21:34:18

文章标签 pdf转成wordl乱码 python 乱码问题 Adobe 乱码解决 文章分类 Python 后端开发

首先我们要明白这个转换出乱码是怎么回事？

我们先用Adobe reader或者Adobeacrobat Pro软件打开我们会出现乱码的PDF文件，

然后，菜单栏，文件--------属性--------字体项我们可以看到是不是文件内嵌了很多字体。

我们这里找了一个文件为例：

的时候是先读取内嵌的字体，如果内嵌的字体没有，那么再读取你系统中的字体来显示，然而WORD

文件是直接读取系统中的字体的，那么如果你PDF文件中内嵌的某个或者某些字体在你的操作系统中

没有，那么转换出来的word文件一般都会出现乱码。

pdf转成wordl乱码 python pdf转换成word出现乱码_pdf转成wordl乱码 python

2. 2

图中本文档中使用的字体就是文件内嵌的字体，由于PDF文件是可以内嵌字体的，所以你打开PDF文件

3. 3

知道了转换后为什么会出现乱码以后，现在我们找一个转换软件来测试转换结果，这里我们用AnyBizSoft PDF Converter 2.5测试。

转换完毕后我们打开得到的word文件看看会不会是乱码？

我截取了其中一个典型的页面，大家可以看看和PDF原文的对比，转换成word后是一堆乱码。

4. 4

pdf转成wordl乱码 python pdf转换成word出现乱码_乱码解决_02

pdf转成wordl乱码 python pdf转换成word出现乱码_乱码解决_03

5. 5

6. 6

接下来我们换一个转换软件，我们使用Solid Converter PDF 6 / 7软件。

这款转换软件是灰常强大的一个PDF转换软件，转换效果很好，而且版面也保持的很好。而且在以前

转换的使用过程中发现这个软件可以自动替换一部分PDF内嵌的字体，从而达到解决一些转换文件的

乱码问题，但是这个软件不是能够解决所有的乱码问题，有时候转换出来的还会是乱码。

比较惊喜的发现，用这个软件转换出来的虽然没有原文那样整齐，但是确实已经不是乱码了。

如果你用这个软件处理出来不是乱码了，那么我们的目的就达到了，如果用这个软件转换出来还是乱码

那么我们接着往下看。

pdf转成wordl乱码 python pdf转换成word出现乱码_乱码解决_04

7. 7

8. 8

如果SolidConverter PDF 搞不定的话，那么我们就只能用ABBYY finereader 这个软件对这个PDF进行OCR识别处理了。
软件界面的设置如下图：
转换的过程：
如果中间出现错误什么的，会有提示的。
转换完毕后我们打开转换好的WORD，截图，大家看效果：
效果还是相当不错的~~~ 乱码解决了~~~ 效果甚至比Solid Converter PDF还好。

总结：ABBYY finereader 几乎可以解决所有PDF转WORD乱码的问题，只要文件清晰度可以的话。OCR识别软件市面上有很多很多，但是ABBYY finereader的混合识别能力和版面的保持能力是我见过的最好的~~~~所以推荐个大家~~