Scrapy 是 Python 中的一个容易扩展的爬虫框架,使用它能够非常快速地从网站提取所需的数据。

  安装 Scrapy 时,如果像安装其它库一样直接运行命令 pip install scrapy,一般都会失败,这是因为 Scrapy 依赖于其它几个 Python 库,要想一次性成功安装 Scrapy,需要先安装它们:lxml、Twisted、pywin32、pyOpenSSL。

  通过 PyCharm 安装 Python 库有 2 种方式,分别是:通过设置添加、通过终端添加。在接下来的介绍中,这两种方式均会提及到。


1、lxml:一个解析库,支持HTML和XML文档的解析,支持XPath解析方式。

  打开 PyCharm 进入「设置」页面,在左侧菜单栏中找到 Project Interpreter ,可以看到目前已有的 Python 包列表,点击右侧“+”进行其他 Python 包的搜索和添加:

通过PyCharm一次性成功安装Scrapy_java

  在搜索栏中输入 lxml ,找到并选中后点击下方 Install Package 进行安装:

通过PyCharm一次性成功安装Scrapy_java_02

  当出现提示 Package ‘lxml’ install successfully 表示安装 lxml 成功:

通过PyCharm一次性成功安装Scrapy_java_03


2、wheel:一种格式,wheel包后缀名为whl,当通过 PyCharm 的设置页面无法成功安装时,可以尝试自行下载 wheel 格式的包进行安装。

  在 PyCharm 界面左下方点击 「 Terminal 」进入终端,如下图所示,输入命令:pip install wheel

  通过命令行安装时,要使用到 Python 自带的 pip 工具(pip 是 Python 包管理工具,该工具提供了对 Python 包的查找、下载、安装、卸载的功能)。

通过PyCharm一次性成功安装Scrapy_java_04


3、Twisted:为 Python 提供的基于事件驱动的网络引擎包。

  直接使用 pip install twisted 命令安装不成功,则可以下载whl格式的包安装。

  进入 Twisted 下载链接:https://pypi.org/project/Twisted/#files

  下载对应版本的 wheel 文件(我下载的是 win64,python3.6 版本):

通过PyCharm一次性成功安装Scrapy_java_05

  下载完成后,进入 whl 文件所在的存储路径,由于我将它保存在了我的 PythonProject 项目文件夹中,因此进入 PyCharm 的「 Terminal 」后,可以直接输入命令 pip install  xxx.whl 进行安装(xxx 是包的名字):

通过PyCharm一次性成功安装Scrapy_java_06


4、pywin32:为 Python 提供访问 Windows API 的扩展,提供了齐全的 windows 常量、接口、线程以及 COM 机制等。

  在终端输入命令:pip install pywin32

通过PyCharm一次性成功安装Scrapy_java_07


5、pyOpenSSL:Python 用于支持 SSL(Security Socket Layer)的包,SSL是为网络通信提供安全及数据完整性的一种安全协议。

  在终端输入命令:pip install pyOpenSSL

通过PyCharm一次性成功安装Scrapy_java_08


以上,均安装完毕后,就可以开始 Scrapy 的安装了。

在终端输入命令:pip install scrapy

通过PyCharm一次性成功安装Scrapy_java_09


至此,Scrapy 顺利安装成功。


虽然上述只操作安装了 5个 Python 包,但实际上……

再次打开 「设置」- 「Project Interpreter 」 ,可以看到,和本文第一张图示对比,实际上新增了 20+ 个 Python 包!

通过PyCharm一次性成功安装Scrapy_java_10


接下来,我们就可以愉快地开始使用 Scrapy 框架来进行爬虫啦。


通过PyCharm一次性成功安装Scrapy_java_11

https://mp.weixin.qq.com/s/1DiM94Qac5teh9QbtqYLOw