一、什么是Scrapy

Scrapy是Python开发的一个快速、高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据。Scrapy用途广泛,可以用于数据挖掘、监测和自动化测试。

Scrapy吸引人的地方在于它是一个框架,任何人都可以根据需求方便的修改。它也提供了多种类型爬虫的基类,如BaseSpider、sitemap爬虫等,最新版本又提供了web2.0爬虫的支持。

二、直接安装

下面介绍在Windows下安装Scrapy的过程。

在Windows下安装Scrapy框架是非常麻烦的,需要安装许多依赖库,万一有一个依赖库没有安装好就会导致安装失败。安装过程可以分为以下几步:

1.安装wheel

pip install wheel

第一步需要安装wheel,安装好wheel库之后,你就可以安装一些wheel文件,通过这些wheel文件完成其他库的安装。因为我已经安装过了,所以会显示以下内容。

python2安装 pythoncom python2安装scapy_python

2. 安装lxml

第二步需要安装lxml,通过这个链接http://www.lfd.uci.edu/~gohlke/pythonlibs/#lxml,可以找到很多不同版本的wheel文件,由于我使用的是python3.6,所以就下载了下面这个文件。

python2安装 pythoncom python2安装scapy_xml_02

直接点击就可以下载,下载完成后找到该文件,右键-->属性-->安全,把对象名称,也就是文件路径copy下来,然后在CMD窗口输入“pip install copy的路径”就可以了。

python2安装 pythoncom python2安装scapy_Scrapy_03

3.PyOpenssl

第三步需要安装PyOpenssl,通过链接https://pypi.python.org/pypi/pyOpenSSL#downloads,进入pypi网站,点击“Download files”,然后点击下载wheel文件即可。

python2安装 pythoncom python2安装scapy_python_04

python2安装 pythoncom python2安装scapy_Scrapy_05

python2安装 pythoncom python2安装scapy_python2安装 pythoncom_06

接着,同样把文件路径(包括文件名称)复制下来,在CMD输入“pip install copy的路径”进行安装。

python2安装 pythoncom python2安装scapy_ide_07

4.安装Twisted

第四步需要安装Twisted框架,这是一个异步框架,Scrapy的核心就是基于Twisted框架。同样地,访问http://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted,下载对应版本的wheel文件。

python2安装 pythoncom python2安装scapy_xml_08

下面依然是复制文件路径,并用pip进行安装。

python2安装 pythoncom python2安装scapy_ide_09

5.安装Pywin32

接下来需要安装Pywin32文件,它是python和win32在运行过程中兼容的一个库。访问https://sourceforge.net/projects/pywin32/files/pywin32/Build%20220/,打开之后会看到一个下载列表,这里点击下载3.6版本。

python2安装 pythoncom python2安装scapy_python2安装 pythoncom_10

下载完成会看到一个exe文件,运行之,依次点击下一步,然后点击完成。

python2安装 pythoncom python2安装scapy_xml_11

python2安装 pythoncom python2安装scapy_python_12

python2安装 pythoncom python2安装scapy_ide_13

 

6.安装Scrapy

安装完依赖库之后,最后一步安装Scrapy框架就Ok了。

pip install scrapy

7.测试Scrapy

最后对安装完的Scrapy框架进行测试,比如新建一个“hello”项目:输入“scrapy startproject hello”:

python2安装 pythoncom python2安装scapy_python_14

根据提示依次输入:

cd hello

scrapy genspider baidu www.baidu.com

然后它给我们创建了一个spider:

python2安装 pythoncom python2安装scapy_Scrapy_15

接下来我们输入“scrapy crawl baidu”,运行一下这个spider,如果运行过程没有出错的话,就说明Scrapy框架安装没问题。

python2安装 pythoncom python2安装scapy_Scrapy_16

三、Anaconda平台下的安装

Anaconda是一个科学计算环境,它里面给我们提供了许多库。如果装有Anaconda,就可以用“conda”命令安装Scrapy。

用conda安装是非常简单的,只需要输入“conda install scrapy”就可以了,出现提示后输入“y”。

python2安装 pythoncom python2安装scapy_python_17