1、网络爬虫的尺寸:

Python网络爬虫《二》_txt文件

2、网络爬虫的限制:

(1)来源审查:判断User-agent进行限制

  • 检查来访HTTP协议头的User-Agent域,只响应浏览器或友好爬虫的访问;

(2)发布公告:Robots协议

3、Robots协议:网络爬虫排除标准

作用:网络告知网络爬虫那些页面可以抓取,那些不行;

显示:在网站根目录下robots.txt文件;

Python网络爬虫《二》_txt文件_02

网络爬虫:自动或者人工识别robot.txt,再进行内容爬取;

约束性:robots协议建议但非约束性,网络爬虫可以不遵守,但存在法律风险;