51CTO博客开发
记录一下利用Heritrix爬取特定网站范围内的网页的配置过程,以便以后参考。 以新浪为例,我们希望将爬虫爬取的范围限定在新浪之内,而不去爬取在来自于其他网站的URL。 首先,我们需要设定爬取的种子链接。在此需要注意,种子链接需要设置成http://sina.com.cn。 因为在接下来的CrawlScope的选择中,我们会选择DecidingS
Copyright © 2005-2024 51CTO.COM 版权所有 京ICP证060544号