pdf附件文本 查重功能开发 java pdf格式查重_pdf附件文本 查重功能开发 java


不知道为什么,现在越来越多学校要求提交PDF格式的论文进行查重,特别是硕士。

问:PDF和WORD论文查重结果有区别吗?哪个高?

答:有区别,通常PDF查重结果更高,因为PDF会检测页眉页脚,有时还会出现参考文献识别失败等问题。

建议:如果学校没有要求只能提交PDF,那么最好用word提交检测!!!

注意事项总结:

一、脚注被标红的解决办法:

1.把word里脚注弄成截图,再转成PDF进行检测。但由于现在知网有OCR技术,有一定几率识别出图片,所以这种方法效果有限。

2.脚注标红太多,那就尽量不用脚注,要么删掉,要么放在文末参考文献里,而参考文献是不会标红的。

二、PDF查重,参考文献后半部分被标红怎么办?

检查查重报告上,参考文献中间是不是出现了页眉页脚,此时只能把参考文献页的页眉页脚删掉后查重,才能避免标红。


下面这张图片是用PDF查重出来的知网检测报告:


pdf附件文本 查重功能开发 java pdf格式查重_pdf附件文本 查重功能开发 java_02


这是一篇法律的论文,因此脚注特别多,但是检测报告上明明是正文内容的地方,脚注竟然被检测出重复了,还出现在正文的中央,这就很尴尬了,脚注怎么改?

如果是用WORD版本检测,一般目录、脚注、参考文献都不会重复,因为系统很容易识别出WORD里各部分内容的格式,知道哪里是目录哪里是参考文献,会直接忽略掉不检测,而用PDF检测就出现了这样那样的问题。(顺带一提遇到参考文献重复的问题请参见参考文献被标红怎么办)

这是可以解决的,不需要改内容,做成图片就可以了。(更新于2019.11,知网更新有OCR识别图片功能,但并不是100%能够识别,所以脚注截图的方法只能一定程度上降低重复率,也有被系统识别出来的风险。)

还有一个方法,可以不用脚注,尽量把脚注放在末尾参考文献里,而参考文献是不会被标红的。

把WORD里的脚注弄成截图,再转PDF,完全看不出来有异样,见对比图:


pdf附件文本 查重功能开发 java pdf格式查重_pdf附件文本 查重功能开发 java_03


pdf附件文本 查重功能开发 java pdf格式查重_页眉_04


OK,完美~


用PDF查重还有另一个问题,有时参考文献只识别对了一半,另一半被当做正文检测,导致被标红,怎么解决?

答:这种情况通常是由于PDF会检测页眉页脚导致的。注意检查查重报告上,参考文献中间是不是出现了页眉页脚,比如突兀地出现了学校名或页码,导致把参考文献隔开了,后半部分就被标红。

这时只能把参考文献页的页眉页脚删掉,才能保证所有参考文献被正确识别。