文章目录
- 介绍
- 定义
- 模块
- 分类
- robot协议
- 反爬和反反爬
- 工具
- 抓包
- 浏览器自带工具
- charles
- IP代理
- 打码平台
介绍
定义
通过编写程序, 模拟浏览器上网, 抓取数据的过程
模块
- urllib
- requests(重点介绍)
分类
- 根据语言
- t0: python java(代码比较臃肿)
- t1: php(多线程和多进程不完美) c c++(方法需要自己写)
- 根据爬虫类型
- 通用爬虫: 爬取整张页面
- 聚焦爬虫: 作用在特定数据
robot协议
- 通过url/robots.txt查看
- 防君子不防小人
反爬和反反爬
反爬策略 | 反反爬策略 |
UA验证(User-Agent) | UA伪装 |
工具
抓包
浏览器自带工具
- 检查 --> network
- all 所有请求
- xhr 异步请求
charles
官网 百度云盘链接: https://pan.baidu.com/s/1oV_lMPrg09rW_T3Wgp1mhQ 提取码: 0fa1
教程
IP代理
在上边"小练习"代码中有介绍
打码平台
待补充