Python之Scrapy遇见个坑

原创

wx595c84263f2f3 2021-05-11 14:56:12 ©著作权

文章标签 Python开发 Python 文章分类 Python 后端开发

©著作权归作者所有：来自51CTO博客作者wx595c84263f2f3的原创作品，请联系作者获取转载授权，否则将追究法律责任

运行Scrapy爬虫被限制抓取，报错：

2018-01-08 18:37:14 [scrapy.middleware] INFO: Enabled item pipelines:
[]
2018-01-08 18:37:14 [scrapy.core.engine] INFO: Spider opened
2018-01-08 18:37:14 [scrapy.extensions.logstats] INFO: Crawled 0 pages (at 0 pages/min), scraped 0 items (at 0 items/min)
2018-01-08 18:37:14 [scrapy.extensions.telnet] DEBUG: Telnet console listening on 127.0.0.1:6023
2018-01-08 18:37:23 [scrapy.core.engine] DEBUG: Crawled (403) <GET https://accounts.douban.com/login> (referer: None)
2018-01-08 18:37:23 [scrapy.spidermiddlewares.httperror] INFO: Ignoring response <403 https://accounts.douban.com/login>: HTTP status code is not handled or not allowed
2018-01-08 18:37:23 [scrapy.core.engine] INFO: Closing spider (finished)
2018-01-08 18:37:23 [scrapy.statscollectors] INFO: Dumping Scrapy stats:
{'downloader/request_bytes': 222,

解决方法：

settings.py中添加用户代理

USER_AGENT = 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_8_3) AppleWebKit/536.5 (KHTML, like Gecko) Chrome/19.0.1084.54 Safari/536.5'

搞定。。。

上一篇：Ubuntu安装之python开发

下一篇：python之字符编码的重要思想

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯