Scrapy爬虫框架安装与介绍

关注华科云商小徐

Scrapy爬虫框架安装与介绍

原创

华科云商小徐 2023-03-20 10:46:27 ©著作权

文章标签 Python 数据爬虫 Scrapy 文章分类 Python 后端开发

©著作权归作者所有：来自51CTO博客作者华科云商小徐的原创作品，请联系作者获取转载授权，否则将追究法律责任

Scrapy爬虫框架也是爬虫项目常用的框架之一，Scrapy通过Python 编写，台式一个快速、高层次的屏幕抓取和网页抓取框架，Scrapy框架的用途广泛，可以用于数据挖掘、监测和自动化测试。

Srapy框架的安装：

无论是在windows还是mac以及linux下，都可以是用pip工具进行快速安装：

$ pip install scrapy

这里推荐一个非常好用的Python调试shell：ipython

ipython是一个python的交互式shell，比默认的python shell好用得多，支持变量自动补全，自动缩进，支持bash shell命令，内置了许多很有用的功能和函数。学习ipython将会让我们以一种更高的效率来使用python。同时它也是利用Python进行科学计算和交互可视化的一个最佳的平台。

我们依旧用pip工具进行安装:

$ pip install ipython

Scrapy框架的基本介绍:

首先，我们得明白一点，Scrapy不是一个功能函数库，而是是用纯Python实现一个为了爬取网站数据、提取结构性数据而编写的应用框架。简单的说，他是一个半成品，可以帮助用户简单快速的部署一个专业的网络爬虫。如果说前面我们写的定制bs4爬虫是”手动挡“，那Scrapy就相当于”半自动档“的车。

其次，Scrapy 使用了 Twisted(其主要对手是Tornado)异步网络框架来处理网络通讯，可以加快我们的下载速度，不用自己去实现异步框架，并且包含了各种中间件接口，可以灵活的完成各种需求。

框架的力量，用户只需要定制开发几个模块就可以轻松的实现一个爬虫，用来抓取网页内容以及各种图片，非常之方便。

Scrapy框架结构:

首先来一张框架整体的图：

Scrapy爬虫框架安装与介绍_爬虫

从图中我们可以清楚的看到，整个框架一共分为五个部分：

SPIDERS

ITEM PIPELINES

DOWNLOADER

SCHEDULER

ENGIINE

这五个部分互相协作，共同完成了整个爬虫项目的工作。下面我们来一个一个介绍。

SPIDERS

Spiders这个模块就是整个爬虫项目中需要我们手动实现的核心部分，就是类似我们之前写的get_content函数部分，最主要的功能是解析网页内容、产生爬取项、产生额外的爬去请求。

ITEM PIPELINES

这个模块也是需要我们手动实现的，他的主要功能是将我们爬取筛选完毕的数据写入文本，数据库等等。总之就是一个“本地化”的过程。

DOWNLOADER

这个模块，是Scrapy帮我们做好的，不需要我们自己编写，直接拿来用就行，其主要功能就是从网上获取网页内容，类似于我们写的get_html函数，当然，比我们自己写的这个简单的函数要强大很多

SCHEDULER

这个模块对所有的爬取请求，进行调度管理，同样也是不需要我们写的模块。通过简单的配置就能达到更加多线程，并发处理等等强大功能。

ENGIINE

这个模块相当于整个框架的控制中心，他控制着所有模块的数据流交换，并根据不同的条件出发相对应的事件，同样，这个模块也是不需要我们编写的。

Scrapy框架的数据流动：

先上一张图：

Scrapy爬虫框架安装与介绍_数据_02

说了各个模块的作用，那么整个项目跑起来的时候，数据到底是怎么运作的呢？上图的数字代表数据的流向，解释如下:

Engine从Spider处获得爬取请求(request)

Engine将爬取请求转发给Scheduler，调度指挥进行下一步

Engine从Scheduler出获得下一个要爬取的请求

Engine将爬取请求通过中间件发给Downloader

爬取网页后后，downloader返回一个Response给engine

Engine将受到的Response返回给spider处理

Spider处理响应后，产生爬取项和新的请求给engine

Engine将爬取项发送给ITEM PIPELINE（写出数据）

Engine将会爬取请求再次发给Scheduler进行调度（下一个周期的爬取）

系统化入门

Scrapy是一个很强大的爬虫框架，用起来很方便，但是要定制高级的功能就不是那么简单的了。这里只是简单的介绍了一下框架的基本原理，但具体如何使用不是一时半会能够说完的，后面我会在例子中一一展现这个框架的高级功能。

如果你想要更加系统化的学习理解这个框架，可以看看Scrapy的官方文档：Scrapy 1.5文档，会让你受益匪浅的！！！！

赞
收藏
评论
分享
举报

上一篇：网络爬虫的原理是什么？

下一篇：爬虫入门之轻量级爬虫

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

举报文章

请选择举报类型

内容侵权涉嫌营销内容抄袭违法信息其他

具体原因

包含不真实信息涉及个人隐私

原文链接（必填）

补充说明

0/200

上传截图

格式支持JPEG/PNG/JPG，图片不超过1.9M

已经收到您得举报信息，我们会尽快审核

鸿蒙开发者社区

WOT技术大会

公众号矩阵

移动端

短视频免费课程课程排行直播课软考学堂

全部课程厂商认证 IT技术 24年11月软考 PMP项目管理免费题库

在线学习

文章资源问答课堂专栏直播

51CTO

鸿蒙开发者社区

51CTO技术栈

51CTO官微

51CTO学堂

51CTO博客

CTO训练营

鸿蒙开发者社区订阅号

51CTO软考

51CTO学堂APP

51CTO学堂企业版APP

鸿蒙开发者社区视频号

51CTO软考题库

51CTO博客

首页
关注
排行榜
精品课程
免费资料
软考题库

科目全、试题精、讲解专业，扫码免费刷

搜索历史清空

热门搜索

查看【】的结果
写文章
创作中心
登录注册