收索系统包括三大模块:数据采集模块、页面清洗模块、数据库模块

Heritrix和Nutch,二者均为开源框架(网络爬虫技术框架),,Heritrix是SourceForge的开源产品,Nutch为Apache的一个子项目,
它们都称作网络爬虫/蜘蛛(Web Crawler),他们实现的原理基本一致,深度遍历网站的资源,将这些资源抓取到本地,
使用方法都是分析网站的每一个有效的URI,并提交Http请求,从而获得相应结果,并生成本地文件及相应的日志
信息器。

Heritrix是一个“archival crawler”-用来获取完整的、精确的、站点内容的深度复制,包括图像以及其他非文本内容
抓取并存储相关内容。对内容来者不拒,不对页面进行内容上的修改,重新爬行对相同的URL不针对先前的进行替换。爬虫
Web用户界面启动、监控、调整、允许弹性的定义要获取的URL

二者的差异:
Nutch只获取并保存可索引的内容,Heritrixze则是超单全收,力求保存页面全貌。
Nutch可以修剪内容或者对内容格式进行转换
Nutch保存内容为数据集库优化格式便于以后索引,刷新替换旧的内容。而Heritrix是添加(追加)新的内容
Nutch从命令运行、控制。Heritrix有web控制管理界面
Nutch的定制能力不够强,不过现在已经有了一定改进。Heritrix可控制的参数更多


抓取策略有两种:


1、深度优先的抓取策略


2.广度(宽度)优先的抓取策略


网络爬虫抓取步骤(流程):


1.初始化根(入口)URL


2.判断是否满足URL抓取终止条件(如果URL队列当中的元素为空,或者抓取到了指定数量),如果满足,退出抓取程序,如果不满足,进行3


3.取出最新的URL(URL出列)


4.将此URL对应的网页通过一个网页下载器下载到本地


5.抽取此网页满足条件的URL,并添加到URL队列当中,返回第2步