反爬虫的主要手段及处理方法
1, Headers限制
添加headers,通过按浏览器的F12,找到对应的header
2, IP限制
通过添加代理解决
3, 动态加载
通过js的分析,或者模拟动态加载
4, 验证码
图片识别技术,牵扯到python高级
5, 减少返回的信息
返回的信息被偷掉
6, 返回伪造的信息
返回的信息被编码过,要通过解码
7,通过robots.txt来限制爬虫
8,通过cookie限制抓取信息
9,通过js渲染,隐藏真实地址信息,ajax请求
10, 登陆的账号密码进行加密,通常存放在js中
11, 绑定一个IP,请求只能以绑定的ip请求
12,页面保存在图片中,图片混在js中