Scrapy 是 Python 中的一个容易扩展的爬虫框架,使用它能够非常快速地从网站提取所需的数据。
安装 Scrapy 时,如果像安装其它库一样直接运行命令 pip install scrapy,一般都会失败,这是因为 Scrapy 依赖于其它几个 Python 库,要想一次性成功安装 Scrapy,需要先安装它们:lxml、Twisted、pywin32、pyOpenSSL。
通过 PyCharm 安装 Python 库有 2 种方式,分别是:通过设置添加、通过终端添加。在接下来的介绍中,这两种方式均会提及到。
1、lxml:一个解析库,支持HTML和XML文档的解析,支持XPath解析方式。
打开 PyCharm 进入「设置」页面,在左侧菜单栏中找到 Project Interpreter ,可以看到目前已有的 Python 包列表,点击右侧“+”进行其他 Python 包的搜索和添加:
在搜索栏中输入 lxml ,找到并选中后点击下方 Install Package 进行安装:
当出现提示 Package ‘lxml’ install successfully 表示安装 lxml 成功:
2、wheel:一种格式,wheel包后缀名为whl,当通过 PyCharm 的设置页面无法成功安装时,可以尝试自行下载 wheel 格式的包进行安装。
在 PyCharm 界面左下方点击 「 Terminal 」进入终端,如下图所示,输入命令:pip install wheel
通过命令行安装时,要使用到 Python 自带的 pip 工具(pip 是 Python 包管理工具,该工具提供了对 Python 包的查找、下载、安装、卸载的功能)。
3、Twisted:为 Python 提供的基于事件驱动的网络引擎包。
直接使用 pip install twisted 命令安装不成功,则可以下载whl格式的包安装。
进入 Twisted 下载链接:https://pypi.org/project/Twisted/#files
下载对应版本的 wheel 文件(我下载的是 win64,python3.6 版本):
下载完成后,进入 whl 文件所在的存储路径,由于我将它保存在了我的 PythonProject 项目文件夹中,因此进入 PyCharm 的「 Terminal 」后,可以直接输入命令 pip install xxx.whl 进行安装(xxx 是包的名字):
4、pywin32:为 Python 提供访问 Windows API 的扩展,提供了齐全的 windows 常量、接口、线程以及 COM 机制等。
在终端输入命令:pip install pywin32
5、pyOpenSSL:Python 用于支持 SSL(Security Socket Layer)的包,SSL是为网络通信提供安全及数据完整性的一种安全协议。
在终端输入命令:pip install pyOpenSSL
以上,均安装完毕后,就可以开始 Scrapy 的安装了。
在终端输入命令:pip install scrapy
至此,Scrapy 顺利安装成功。
虽然上述只操作安装了 5个 Python 包,但实际上……
再次打开 「设置」- 「Project Interpreter 」 ,可以看到,和本文第一张图示对比,实际上新增了 20+ 个 Python 包!
接下来,我们就可以愉快地开始使用 Scrapy 框架来进行爬虫啦。
https://mp.weixin.qq.com/s/1DiM94Qac5teh9QbtqYLOw