文章目录

  • 介绍
  • 定义
  • 模块
  • 分类
  • robot协议
  • 反爬和反反爬
  • 工具
  • 抓包
  • 浏览器自带工具
  • charles
  • IP代理
  • 打码平台



介绍

定义

通过编写程序, 模拟浏览器上网, 抓取数据的过程


模块

  • urllib
  • requests(重点介绍)

分类

  • 根据语言
  • t0: python java(代码比较臃肿)
  • t1: php(多线程和多进程不完美) c c++(方法需要自己写)
  • 根据爬虫类型
  • 通用爬虫: 爬取整张页面
  • 聚焦爬虫: 作用在特定数据

robot协议

robot协议示例

  • 通过url/robots.txt查看
  • 防君子不防小人

反爬和反反爬

反爬策略

反反爬策略

UA验证(User-Agent)

UA伪装


工具

抓包

浏览器自带工具

  • 检查 --> network
  • all 所有请求
  • xhr 异步请求

charles

官网 百度云盘链接: https://pan.baidu.com/s/1oV_lMPrg09rW_T3Wgp1mhQ 提取码: 0fa1
教程


IP代理

在上边"小练习"代码中有介绍

打码平台

待补充