Python网络爬虫《二》

原创

女王de专属领地 2023-06-25 07:47:00 博主文章分类：Python全栈 ©著作权

©著作权归作者所有：来自51CTO博客作者女王de专属领地的原创作品，请联系作者获取转载授权，否则将追究法律责任

1、网络爬虫的尺寸：

Python网络爬虫《二》_txt文件

2、网络爬虫的限制：

（1）来源审查：判断User-agent进行限制

（2）发布公告：Robots协议

3、Robots协议：网络爬虫排除标准

作用：网络告知网络爬虫那些页面可以抓取，那些不行；

显示：在网站根目录下robots.txt文件；

Python网络爬虫《二》_txt文件_02

网络爬虫：自动或者人工识别robot.txt,再进行内容爬取；

约束性：robots协议建议但非约束性，网络爬虫可以不遵守，但存在法律风险；

下一篇：扫盲.so

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯