runstdesk分布式部署分布式部署

转载

mob6454cc770d06 2024-03-25 20:03:59

文章标签 runstdesk分布式部署 redis ide 配置文件 文章分类 架构后端开发

一. redis分布式部署

1.scrapy框架是否可以自己实现分布式？

答曰: 不可以; 原因有二:

其一: 因为多台机器上部署的scrapy会各自拥有各自的调度器，这样就使得多台机器无法分配start_urls列表中的url。(多台机器无法共享同一个调度器)

其二: 多台机器爬取到的数据无法通过同一个管道对数据进行统一的数据持久出存储。(多台机器无法共享同一个管道)

2. 基于scrapy-redis组件的分布式爬虫

-- scrapy-redis组件中为我们封装好了可以被多台机器共享的调度器和管道，我们可以直接使用并实现分布式数据爬取

-- 实现方式:

　　(1).基于该组件的RedisSpider类

　　(2).基于该组件的RedisCrawlSpider类

3. 分布式实现流程: 上述两种不同方式的分步式实现流程是统一的

(1). 下载scrapy-redis组件

pip install scrapy-redis

(2). redis配置文件的配置：

-- 注释该行：bind 127.0.0.1，表示可以让其他ip访问redis

-- 将yes该为no：protected-mode no，表示可以让其他ip操作redis

(3). 修改爬虫文件中的相关代码：

-- 将爬虫类的父类修改成基于RedisSpider或者RedisCrawlSpider。注意：如果原始爬虫文件是基于Spider的，则应该将父类修改成RedisSpider，如果原始爬虫文件是基于CrawlSpider的，则应该将其父类修改成RedisCrawlSpider

-- 注释或者删除start_urls列表，切加入redis_key属性，属性值为scrpy-redis组件中调度器队列的名称\

(4). 在配置文件中进行相关配置，开启使用scrapy-redis组件中封装好的管道

ITEM_PIPELINES = {
    'scrapy_redis.pipelines.RedisPipeline': 400
}

(5). 在配置文件中进行相关配置，开启使用scrapy-redis组件中封装好的调度器

# 使用scrapy-redis组件的去重队列
DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"
# 使用scrapy-redis组件自己的调度器
SCHEDULER = "scrapy_redis.scheduler.Scheduler"
# 是否允许暂停
SCHEDULER_PERSIST = True

(6). 在配置文件中进行爬虫程序链接redis的配置：

REDIS_HOST = 'redis服务的ip地址'
REDIS_PORT = 6379
REDIS_ENCODING = ‘utf-8’
REDIS_PARAMS = {‘password’:’123456’}

(7). 开启redis服务器：redis-server 配置文件

(8). 开启redis客户端：redis-cli

(9). 运行爬虫文件：scrapy runspider SpiderFile

(10). 向调度器队列中扔入一个起始url（在redis客户端中操作）：lpush redis_key属性值起始url

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

上一篇：nginx 命令启动 nginx配置启动

下一篇：centos7 root不能远程连接 centos7.4远程连接

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯