常用的库:

import urllib
import re
import requests
from selenium import webdriver
#phantomjs
import lxml
from bs4 import BeautifulSoup
import pyquery
import pymysql
import pymongo
# import redis
import flask
import
  1. 数据存储
    使用mongodb较为便捷,
    或mysql易于网站数据分析等,
    Redis主要是分布式爬虫。
  2. python多版本
    需要使用pip3等命令进行切换,具体需要到安装目录查看,或者重命名文件。
  3. 常用请求方式
    urllib库较为底层;
    requests比较常用;
  4. 解析库
    正则表达式re模块;
    beautifulsoup(bs4);
    pyquery比较好用。
  5. 其他
  • selenium模拟浏览器操作,phantomjs无界面浏览器,通过配置可设置无图模式等高级操作;
  • 有时我们通过ajax、开发者工具分析具体请求,甚至直接拿到json数据。