python照片文字提取出来 python图片提取数字

转载

云端小仙童 2024-08-20 20:37:15

文章标签 python照片文字提取出来 python抓取图片数字 mongodb linux 中间件 文章分类 Python 后端开发

Scrapy爬虫框架

Scrapy是一个为了爬取网站数据，提取结构性数据而编写的应用框架。其可以应用在数据挖掘，信息处理或存储历史数据等一系列的程序中。其最初是为了页面抓取 (更确切来说, 网络抓取 )所设计的，也可以应用在获取API所返回的数据(例如 Amazon Associates Web Services ) 或者通用的网络爬虫。Scrapy用途广泛，可以用于数据挖掘、监测和自动化测试。

Scrapy 使用了 Twisted异步网络库来处理网络通讯。整体架构大致如下

图片.png

Scrapy主要包括了以下组件：

引擎(Scrapy)

用来处理整个系统的数据流, 触发事务(框架核心)

调度器(Scheduler)

用来接受引擎发过来的请求, 压入队列中, 并在引擎再次请求的时候返回. 可以想像成一个URL（抓取网页的网址或者说是链接）的优先队列, 由它来决定下一个要抓取的网址是什么, 同时去除重复的网址

下载器(Downloader)

用于下载网页内容, 并将网页内容返回给蜘蛛(Scrapy下载器是建立在twisted这个高效的异步模型上的)

爬虫(Spiders)

爬虫是主要干活的, 用于从特定的网页中提取自己需要的信息, 即所谓的实体(Item)。用户也可以从中提取出链接,让Scrapy继续抓取下一个页面

项目管道(Pipeline)

负责处理爬虫从网页中抽取的实体，主要的功能是持久化实体、验证实体的有效性、清除不需要的信息。当页面被爬虫解析后，将被发送到项目管道，并经过几个特定的次序处理数据。

下载器中间件(Downloader Middlewares)

位于Scrapy引擎和下载器之间的框架，主要是处理Scrapy引擎与下载器之间的请求及响应。

爬虫中间件(Spider Middlewares)

介于Scrapy引擎和爬虫之间的框架，主要工作是处理蜘蛛的响应输入和请求输出。

调度中间件(Scheduler Middewares)

介于Scrapy引擎和调度之间的中间件，从Scrapy引擎发送到调度的请求和响应。

Scrapy运行流程大概如下：

引擎从调度器中取出一个链接(URL)用于接下来的抓取

引擎把URL封装成一个请求(Request)传给下载器

下载器把资源下载下来，并封装成应答包(Response)

爬虫解析Response

解析出实体（Item）,则交给实体管道进行进一步的处理

解析出的是链接（URL）,则把URL交给调度器等待抓取

安装

pip install scrapy

创建工程

scrapy startproject 工程XXX

使用tree树形目录

pip install tree

第一次安装没有效果，则更新一下系统即可

tree -L N

进入刚创建的项目目录

tree -L 3

微信图片_20181214040842.png

使用mongodb存储数据

微信图片_20181215132500.png

curl -O http://downloads.mongodb.org/linux/mongodb-linux-x86_64-4.0.4.tgz

2. 解压tgz包

tar -zxvf mongodb-linux-x86_64-2.6.3.tgz

3. 拷贝解压出的文件夹到指定目录

注意权限，如果提示没有权限，请用sudo，或者修改目录的own。

mkdir -p mongodb cp -R -n mongodb-linux-x86_64-2.6.3/ mongodb

4. 修改/etc/profile(对所有用户有效)或者~/.bashrc(对当前用户有效), 把mongodb/bin加到PATH中。

export MONGODB=/opt/mongodb
export PATH=$MONGODB/bin:$PATH

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

上一篇：ES集群怎么做到一个master down了自动吊起来另一个备用master es集群启动顺序

下一篇：keycloak java集成 java kcp

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯

python照片文字提取出来 python图片提取数字

python照片文字提取出来 python图片提取数字

51CTO博客