数据采集技术python网络爬虫数据采集与爬虫

转载

mob64ca13f87273 2023-08-21 06:54:50

文章标签 数据采集技术python网络爬虫爬虫开源框架 Web 深度遍历 文章分类 Python 后端开发

收索系统包括三大模块：数据采集模块、页面清洗模块、数据库模块

Heritrix和Nutch，二者均为开源框架（网络爬虫技术框架），，Heritrix是SourceForge的开源产品，Nutch为Apache的一个子项目，
它们都称作网络爬虫/蜘蛛（Web Crawler）,他们实现的原理基本一致，深度遍历网站的资源，将这些资源抓取到本地，
使用方法都是分析网站的每一个有效的URI，并提交Http请求，从而获得相应结果，并生成本地文件及相应的日志
信息器。

Heritrix是一个“archival crawler”-用来获取完整的、精确的、站点内容的深度复制，包括图像以及其他非文本内容
抓取并存储相关内容。对内容来者不拒，不对页面进行内容上的修改，重新爬行对相同的URL不针对先前的进行替换。爬虫
Web用户界面启动、监控、调整、允许弹性的定义要获取的URL

二者的差异：
Nutch只获取并保存可索引的内容，Heritrixze则是超单全收，力求保存页面全貌。
Nutch可以修剪内容或者对内容格式进行转换
Nutch保存内容为数据集库优化格式便于以后索引，刷新替换旧的内容。而Heritrix是添加（追加）新的内容
Nutch从命令运行、控制。Heritrix有web控制管理界面
Nutch的定制能力不够强，不过现在已经有了一定改进。Heritrix可控制的参数更多

抓取策略有两种：

1、深度优先的抓取策略

2.广度（宽度）优先的抓取策略

网络爬虫抓取步骤（流程）：

1.初始化根（入口）URL

2.判断是否满足URL抓取终止条件（如果URL队列当中的元素为空，或者抓取到了指定数量），如果满足，退出抓取程序，如果不满足，进行3

3.取出最新的URL(URL出列)

4.将此URL对应的网页通过一个网页下载器下载到本地

5.抽取此网页满足条件的URL，并添加到URL队列当中，返回第2步