在纸媒工作了几年,把纸媒转成内容可复制的电子版,也不是一个新概念,市场上也有很多的一些成熟产品。 但是,前期我遇到了自动识别软件,识别PDF后有掉字的现象,软件是自动化的机械化的,难免出错,出错后我们也需要去寻找解决办法,或许最先想到的是更换新的自动化生成软件,但是还是难保人为合并出错、软件识别出错等问题。 在工作时间中,我想到了可以做文字对比的方案,每天的几版报纸也不多,即使每篇文章都做一次对比也不会花费太多的时间。下面我就来讲讲我找到的对比方案。 首先,从排版软件生成的PDF中复制原版文字,但是报纸杂志排版常见的是分栏排版,所以直接复制出来的PDF文字有很多的换行,其实从网页中复制的文字也是一样,每个电脑环境不一样可能复制出来的空格黄行标识都不太一致,那么我们要解决的就是如何快捷的过滤掉不要的字符,于是我在百度寻找“如何过滤PDF文字的换行”,找了好久没有找到中意的,功夫不负有心人,最近我找到了“PDF复制”这个在线工具网站,网址是https://pdfcopy.cn/,特别好用,您不妨一试。

第二,我们就是需要进行文字对比,对比功能在线的工具非常的对,我找到这个界面比较干净,主要还是有错误提示功能,屡试不爽。 对比网站“中文、代码对比”,网址是https://www.jq22.com/wbdb/

这个方案,能解决你想对比的文字,比如纸媒转化成电子版,还有杂志、代码、书籍等。 今天也算是我正式开始写博客,以前一直从事技术性的工作,但是呢没有抽时间总结,现在回想起来很多东西会了过不了多久又丢了,视乎做了很多的重复性的工作,希望2020开始能坚持,不断的丰富自己。 有不当之处,欢迎指正。 ———————————————— 版权声明:本文为CSDN博主「奋斗的老猪」的原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接及本声明。 原文链接:https://blog.csdn.net/u012024179/article/details/104014254