word 检索 python python论文检索

转载

flybirdfly 2024-03-12 06:48:29

论文被引用数搜索

利用百度学术网页版来检索一个文件夹中的所有论文的被引用数量。
完整代码下载地址：Python批量检索论文被引用数量源码依赖有beautifulsoup库、regex正则表达式库。

主程序为fileWalk.py。

修改程序中workPath值为文件夹绝对路径，如程序中所示，路径中所有区分符号使用\\，但路径末尾没有\\符号。

修改文件夹中所有论文文件名为(论文题目).pdf的样式，前后没有其他字符。

百度会限流，一般是30篇，所以有了update.log文件，其中保存的是已经更新的论文的名字，如果被限流了，等待大约10分钟后再试就可以直接跳过已经被更新的，将因被限流而没被更新的论文继续更新。

这样子可以大大节省时间，还是挺方便的。

后期根据我的需要添加增加作者名和发表时间的功能。

如果无法看到图片可能需要修改一下DNS，github的图片展示好像不太行。

包括有多篇同名论文和没有同名论文的情况。

按第一篇的被引用数取。

word 检索 python python论文检索_论文引用数量检索

若搜索后直接跳转到如下页面，则直接取该页面中的被引用数。

word 检索 python python论文检索_限流_02

直接返回-1，若原本文件没有被引头，则重命名为0。

word 检索 python python论文检索_批量检索论文引用数量_03

直接返回-1，重命名为0。

word 检索 python python论文检索_搜索_04

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯