1、网络爬虫的尺寸:
2、网络爬虫的限制:
(1)来源审查:判断User-agent进行限制
- 检查来访HTTP协议头的User-Agent域,只响应浏览器或友好爬虫的访问;
(2)发布公告:Robots协议
3、Robots协议:网络爬虫排除标准
作用:网络告知网络爬虫那些页面可以抓取,那些不行;
显示:在网站根目录下robots.txt文件;
网络爬虫:自动或者人工识别robot.txt,再进行内容爬取;
约束性:robots协议建议但非约束性,网络爬虫可以不遵守,但存在法律风险;
1、网络爬虫的尺寸:
2、网络爬虫的限制:
(1)来源审查:判断User-agent进行限制
(2)发布公告:Robots协议
3、Robots协议:网络爬虫排除标准
作用:网络告知网络爬虫那些页面可以抓取,那些不行;
显示:在网站根目录下robots.txt文件;
网络爬虫:自动或者人工识别robot.txt,再进行内容爬取;
约束性:robots协议建议但非约束性,网络爬虫可以不遵守,但存在法律风险;
上一篇:Python网络爬虫《一》
下一篇:扫盲.so
举报文章
请选择举报类型
补充说明
0/200
上传截图
格式支持JPEG/PNG/JPG,图片不超过1.9M