Scrapy是一个为了爬取网站数据,提取结构性数据而编写的Python应用框架。 可以应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中。
Scrapy安装环境必备项:python、pip工具、wheel模块、lxml模块、twisted模块、pyOpenSSL模块(需要OpenSSL)、scrapy模块

1、pip是一个安装和管理 Python 包的工具
2、wheel本质上是一个 zip 包格式,用于 python 模块的安装、模块的发布
3、lxml是python中处理xml的一个非常强大的库,可以非常方便的解析和生成xml文件
4、twisted是用Python实现的基于事件驱动的网络引擎框架。
5、pyOpenSSL是python的密码库(OpenSSL 是一个安全套接字层密码库)

接下来我们看看这些工具如何安装。

一、基础安装

1、python开发环境搭建

1)python安装

python编译工具官网的地址为:https://www.python.org/downloads/,下载好工具点击运行安装即可。

2)python环境配置

安装成功后在 “环境变量”-》“path”中将python安装目录和安装目录下的Scripts文件夹放入即可(如:在path环境变量中设置如下内容:C:\Program Files (x86)\Python36-32\Scripts\;C:\Program Files (x86)\Python36-32\)

3)python开发工具安装及配置

python 常用的IDE开发工具是PyCharm,其下载网址是:https://www.jetbrains.com/pycharm/download/#section=windows ,在改地址下载安装即可。

安装好后,PyCharm工具的python环境配置如下,File-》settings打开配置窗口,按如下图配置即可

python struct模块需要安装 python需要安装哪些模块_python struct模块需要安装

2、pip工具

python安装包里默认包含了pip工具。

由于本人使用的python版本是3.6的,其pip工具的版本是9.0.3,使用时会提示需要更新pip(如下图)

python struct模块需要安装 python需要安装哪些模块_python struct模块需要安装_02


所以输入提示更新命令

python -m pip install -upgrade pip

输出如下:

python struct模块需要安装 python需要安装哪些模块_python struct模块需要安装_03

3、wheel模块

wheel模块安装,使用指令

pip3 install wheel

输出如下:

python struct模块需要安装 python需要安装哪些模块_scrapy安装_04

4、lxml模块

lxml模块,用命令 pip3 install lxml 安装,会提示缺少包的错误,因此该模块安装需要采取使用本地.whl文件,安装,该文件可以在 https://www.lfd.uci.edu/~gohlke/pythonlibs/#lxml 下载。本人python版本是V3.6.5 32位的,因此选择了 lxml‑4.2.1‑cp36‑cp36m‑win32.whl,如下图

python struct模块需要安装 python需要安装哪些模块_python安装_05

执行如下命令,安装lxml模块

pip3 install lxml-4.2.1-cp36-cp36m-win32.whl

命令执行结果如下:

python struct模块需要安装 python需要安装哪些模块_python_06

5、pyOpenSSL模块

pyOpenSSL安装前需要先安装了OpenSSL库,window未集成OpenSSL库,所以需要下载并且安装。

1)OpenSSL安装

下载地址:http://slproweb.com/products/Win32OpenSSL.html ,本人下载的是 Win32 OpenSSL v1.1.0h该版本(如下图)

python struct模块需要安装 python需要安装哪些模块_scrapy安装_07


该安装包需要VC2008以上的库支持,本人有vs2017,可以通过vs2017安装包,自选如下组件,

python struct模块需要安装 python需要安装哪些模块_python安装_08


2)pyOpenSSL安装

输入命令进行安装

pip3 install pyOpenSSL

安装结果如下图:

python struct模块需要安装 python需要安装哪些模块_pycharm集成scrapy_09

安装完成后,进入python,import OpenSSL没错误报错误,则成功。如下图验证

python struct模块需要安装 python需要安装哪些模块_pycharm集成scrapy_10

6、twisted安装

twisted模块依赖PyOpenSSL、Zope.Interface、PyWin32,使用pip命令安装即可

#安装Zope.Interface
pip3 install zope.interface
#安装PyWin32
pip3 install PyWin32
#安装twisted
pip3 install twisted

命令运行结果如下:

python struct模块需要安装 python需要安装哪些模块_scrapy安装_11


python struct模块需要安装 python需要安装哪些模块_python安装_12


python struct模块需要安装 python需要安装哪些模块_python_13

7、安装scrapy

scrapy所依赖的环境在上面6个步骤中已经安装完成,下面使用pip命令安装scrapy即可

pip3 install scrapy

命令执行结果如下:

python struct模块需要安装 python需要安装哪些模块_python_14

通过上述步骤,即将scrapy开发环境搭建完成。

二、PyChram安装python模块

1、python模块通用安装手法

在上述 基础安装->python开发环境搭建中已经讲到PyChram的安装和在PyCharm中的python库的设置,在此将介绍,PyChram中如何添加如pyOpenSSL、lxml等模块的方式。

通过File -> Settings,在Settings弹出框左侧找到 Project Interpreter,点击 Project Interpreter,在右侧找到 ”+“进行模块的添加即可,如下图

python struct模块需要安装 python需要安装哪些模块_python_15

2、PyChram集成Scrapy框架

1)在工程根目录找到init.py,填入如下程序

#!/usr/bin/env python
# -*- coding:utf-8 -*-

from scrapy import cmdline
#scrapy crawl itcast (house为爬虫名)
#此处的语句即是采用的twisted框架库
cmdline.execute("sscrapy crawl house".split())

2) 在 Run -> Edit Configurations…工具中创建python运行设置,如下图

python struct模块需要安装 python需要安装哪些模块_scrapy安装_16

创建好后,OK保存,点击运行即可

python struct模块需要安装 python需要安装哪些模块_python安装_17