1. 技术选型:
scrapy VS (requests + beautifulsoup)
- requests和beautifulsoup都是库,scrapy是框架 a. jquery是一个库 b. vue、react是框架
- scrapy框架中可以集成requests和beautifulsoup等第三方库
- scrapy基于twisted(异步IO),有性能优势
- scrapy提供了很多内置的功能,开发速度快
- scrapy内置的css和xpath selector非常方便: a. beautifulsoup一个纯ptyhon的框架,最大的缺点就是慢 b. xpath selector是c写的框架
2. 常见类型的服务:
- 静态网页
- 动态网页
- webservice(restapi) => ajax
3. 爬虫作用:
- 搜索引擎 => 百度、google、垂直领域搜索引擎 a. 随时随地在互联网爬取所能爬到的页面,对数据做结构化分析,最后给用户提供一个搜索接口 b. 垂直领域与百度有区别: (1). 垂直领域知道要去爬取哪些数据,哪些网站 (2). 百度不知道爬取哪些数据
- 推荐引擎 => 今日头条 a. 根据用户浏览习惯或感兴趣的内容,主动推送感兴趣的内容 b. 搜索引擎是被动搜索
- 机器学习的数据样本
- 数据分析(如股票分析、金融数据分析)、舆情分析等