【背景知识】
Scrapy 1.1 开始支持 Python3。(2016上半年)
Scrapy 1.5 不再支持 Python 3.3。(2017下半年)
Scrapy 官网:https://scrapy.org/
Scrapy GitHub:https://github.com/scrapy/scrapy
Scrapy pypi:https://pypi.org/project/Scrapy/
Scrapy 官方文档:https://docs.scrapy.org/en/latest/
Scrapy 中文网 1.5 文档:http://www.scrapyd.cn/doc/
【架构图】
walker 看起来新图只是旧图的细化,无实质性差异。
【FAQ】
同时运行多个 spider:Running multiple spiders in the same process
多 spider 下配置每个 spider 穿越的 middleware 可使用 custom_settings 配置。可参考:How to set different scrapy-settings for different spiders?
Scrapy url 参数化去重可通过继承 RFPDupeFilter 类,重写 request_fingerprint 函数实现。可参考:关于Scrapy去重逻辑分析
【相关链接】
*** walker ***