反爬虫的主要手段及处理方法

1, Headers限制

           添加headers,通过按浏览器的F12,找到对应的header

2,  IP限制

          通过添加代理解决

3,  动态加载

         通过js的分析,或者模拟动态加载

4,  验证码

         图片识别技术,牵扯到python高级

5,  减少返回的信息

         返回的信息被偷掉

6,  返回伪造的信息

          返回的信息被编码过,要通过解码

7,通过robots.txt来限制爬虫


8,通过cookie限制抓取信息

9,通过js渲染,隐藏真实地址信息,ajax请求

10, 登陆的账号密码进行加密,通常存放在js中

11, 绑定一个IP,请求只能以绑定的ip请求

12,页面保存在图片中,图片混在js中