常用的库:
- 数据存储
使用mongodb较为便捷,
或mysql易于网站数据分析等,
Redis主要是分布式爬虫。 - python多版本
需要使用pip3等命令进行切换,具体需要到安装目录查看,或者重命名文件。 - 常用请求方式
urllib库较为底层;
requests比较常用; - 解析库
正则表达式re模块;
beautifulsoup(bs4);
pyquery比较好用。 - 其他
- selenium模拟浏览器操作,phantomjs无界面浏览器,通过配置可设置无图模式等高级操作;
- 有时我们通过ajax、开发者工具分析具体请求,甚至直接拿到json数据。