收索系统包括三大模块:数据采集模块、页面清洗模块、数据库模块
Heritrix和Nutch,二者均为开源框架(网络爬虫技术框架),,Heritrix是SourceForge的开源产品,Nutch为Apache的一个子项目,
它们都称作网络爬虫/蜘蛛(Web Crawler),他们实现的原理基本一致,深度遍历网站的资源,将这些资源抓取到本地,
使用方法都是分析网站的每一个有效的URI,并提交Http请求,从而获得相应结果,并生成本地文件及相应的日志
信息器。
Heritrix是一个“archival crawler”-用来获取完整的、精确的、站点内容的深度复制,包括图像以及其他非文本内容
抓取并存储相关内容。对内容来者不拒,不对页面进行内容上的修改,重新爬行对相同的URL不针对先前的进行替换。爬虫
Web用户界面启动、监控、调整、允许弹性的定义要获取的URL
二者的差异:
Nutch只获取并保存可索引的内容,Heritrixze则是超单全收,力求保存页面全貌。
Nutch可以修剪内容或者对内容格式进行转换
Nutch保存内容为数据集库优化格式便于以后索引,刷新替换旧的内容。而Heritrix是添加(追加)新的内容
Nutch从命令运行、控制。Heritrix有web控制管理界面
Nutch的定制能力不够强,不过现在已经有了一定改进。Heritrix可控制的参数更多
抓取策略有两种:
1、深度优先的抓取策略
2.广度(宽度)优先的抓取策略
网络爬虫抓取步骤(流程):
1.初始化根(入口)URL
2.判断是否满足URL抓取终止条件(如果URL队列当中的元素为空,或者抓取到了指定数量),如果满足,退出抓取程序,如果不满足,进行3
3.取出最新的URL(URL出列)
4.将此URL对应的网页通过一个网页下载器下载到本地
5.抽取此网页满足条件的URL,并添加到URL队列当中,返回第2步
数据采集技术python网络爬虫 数据采集与爬虫
转载本文章为转载内容,我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题,欢迎原作者联系我们进行内容更正或删除文章。
提问和评论都可以,用心的回复会被更多人看到
评论
发布评论
相关文章
-
C语言爬虫采集图书网站百万数据
最近需要查阅一些资料,只给到相关项目名称以及关键词,想通过图书文库找到对应书籍,那么怎么才能在百万数据库中找到自己需要的文献呢?
System 代理服务器 用户名 爬虫 采集 -
kubeconfig默认namespace
一、引言 kubeadm 是 k8s 重要的快速部署工具,也是其原生支持的部署工具,在实现自动化部署方面具有重要的研究价值。 本文将基于 Kubernetes 1.12 版本,分析其 init 初始化集群的执行流程,希望对读者进一步理解 k8s 有所帮助!二、流程介绍
kubeadm init 执行流程分析 kubeadm k8s 初始化 加载