阅读各种开源代码解读文章!

备注:以下代码只为研究技术分析,相关下载请于24小时内删除

Python是一门非常简单的语言,快速入门之后可以做很多事情。另外Python又名爬虫,就是因为其在网页抓取的上的快速功效,今天这个例子就是不到百行代码实现从某度文库抓取文章

从某度文库爬取相关的文章,其中大致分为两个步骤

1,给定关键字,搜索某度文库,并按页解析出要下载的文档url

2,批量下载url下的文档

网上关于Python爬取某度搜索结果的代码还是挺多的,但是没找到爬取某度文库的,对比某度搜索和某度文库的url,两者差异并不大,只是部分关键字,某度搜索用的缩写

对比了下看看里面的几个区别,差别不是太大,主要是某度搜索用的是缩写,所以只要把代码略微修改即可,这里就不重复贴代码了,文章的末尾我会把全部代码贴出来

找到搜索结果url后,后面翻页,两者的逻辑是一致的,都是用pn=?进行页面偏移,所以只要解析url的结果获取对应的文章地址,保存下来,第一步就算是完成了

第二步其实就是遍历拿到文档url,依次下载,只是需要url请求的时候需要模拟手机,因为电脑端会因为翻页问题导致无法完整下载

大概步骤就是这样,下面就直接上代码了

第一步骤代码:

1、根据关键字拼出来搜索结果url

2、通过https访问某度文库获取搜索结果

3、解析搜索结果,将文库的文档地址,保存到一个txt中

第二步骤代码:

1、读取txt,依次访问文档url,将url中的文档,保存到本地

—————END—————