python文本文件搜索特定内容 python搜索文章

转载

mob64ca1417736e 2023-09-20 22:54:48

阅读各种开源代码解读文章！

备注：以下代码只为研究技术分析，相关下载请于24小时内删除

Python是一门非常简单的语言，快速入门之后可以做很多事情。另外Python又名爬虫，就是因为其在网页抓取的上的快速功效，今天这个例子就是不到百行代码实现从某度文库抓取文章

从某度文库爬取相关的文章，其中大致分为两个步骤

1，给定关键字，搜索某度文库，并按页解析出要下载的文档url

2，批量下载url下的文档

网上关于Python爬取某度搜索结果的代码还是挺多的，但是没找到爬取某度文库的，对比某度搜索和某度文库的url，两者差异并不大，只是部分关键字，某度搜索用的缩写

对比了下看看里面的几个区别，差别不是太大，主要是某度搜索用的是缩写，所以只要把代码略微修改即可，这里就不重复贴代码了，文章的末尾我会把全部代码贴出来

找到搜索结果url后，后面翻页，两者的逻辑是一致的，都是用pn=?进行页面偏移，所以只要解析url的结果获取对应的文章地址，保存下来，第一步就算是完成了

第二步其实就是遍历拿到文档url，依次下载，只是需要url请求的时候需要模拟手机，因为电脑端会因为翻页问题导致无法完整下载

大概步骤就是这样，下面就直接上代码了

第一步骤代码：

1、根据关键字拼出来搜索结果url

2、通过https访问某度文库获取搜索结果

3、解析搜索结果，将文库的文档地址，保存到一个txt中

第二步骤代码：

1、读取txt，依次访问文档url，将url中的文档，保存到本地

—————END—————

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯

51CTO博客