urllib库,用该模块写一些爬虫文件,实现起来非常方便,但做大型项目的时候,会发现效率不是太好、并且程序的稳定性也不是太好,更适合写爬虫文件,scrapy爬虫框架更适合做爬虫项目
一些第三方库:
lxml、Twisted、pywin32、scrapy
lxml是一种可以迅速、灵活地处理 XML。
Twisted是用Python实现的基于事件驱动的网络引擎框架。
pywin32提供win32api。
Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架。
1.安装Python3
2.安装PythonIDE— PyCharm IDE 2016.1.4
3.安装 Visual Studio 2015 软件
如果不安装,当中你执行pip install third-package-name时,有时会出现下面这个错误: error: Unable to find vcvarsall.bat
4.升级 pip 工具
5.安装一些第三方库lxml、Twisted、pywin32、scrapy
1. 使用 pip 命令行工具在线下载你需要的第三方库
pip install some-package-name
2. 手动下载 第三方库,再使用 pip 命令安装
Step 1 . 来到这个网站:http://www.lfd.uci.edu/~gohlke/pythonlibs/ Step 2 . 按组合键:Ctrl + F 查找关键词:opencv, 点击下面图中的opencv
Step 3 . 下载它,并记下下载路径:
Step 4 . 下载完成后,在 命令提示符窗口 中,执行下面的命令(其中软件包要输入绝对路径):
pip install 绝对路径
scrapy(直接使用命令:pip.exe install scrapy 来安装。)
报此错误 Could not find a version that satisfies the requirement cryptography>=2.3 (f** 多试几次多试几次多试几次!就OK!
补充:更新 pip 工具的命令
python -m pip install --upgrade pip6.测试
7.学习Scrapy 命令 分为两种:全局命令 和 项目命令。
全局命令:在哪里都能使用。
项目命令:必须在爬虫项目里面才能使用
7.1 全局命令:
startproject:创建一个爬虫项目:scrapy startproject demo(demo 创建的爬虫项目的名字)
runspider 运用单独一个爬虫文件:scrapy runspider abc.py veiw 下载一个网页的源代码,并在默认的文本编辑器中打开这个源代码:scrapy view http://www.aobossir.com/ shell 进入交互终端,用于爬虫的调试(如果你不调试,那么就不常用):scrapy shell http://www.baidu.com --nolog(–nolog 不显示日志信息)
version 查看版本:(scrapy version)
bench 测试本地硬件性能(工作原理:):scrapy bench
7.2项目命令(进入项目路径,才能看到项目命令)
genspider 创建一个爬虫文件,我们在爬虫项目里面才能创建爬虫文件(这个命令用的非常多)(startproject:创建一个爬虫项目)。创建爬虫文件是按照以下模板来创建的
使用scrapy genspider -l 命令查看有哪些模板。
basic 基础crawl自动爬虫csvfeed用来处理csv文件xmlfeed用来处理xml文件
例如,按照basic模板创建一个名为f1的爬虫文件:scrapy genspider -t basic f1 ,创建了一个f1.py文件。
check 测试爬虫文件、或者说:检测一个爬虫,如果结果是:OK,那么说明结果没有问题。:scrapy check f1
crawl 运行一个爬虫文件。:scrapy crawl f1 或者 scrapy crawl f1 --nolog
list 列出当前爬虫项目下所有的爬虫文件: scrapy list
edit 使用编辑器打开爬虫文件 (Windows上似乎有问题,Linux上没有问题):scrapy edit f1
















