python scrapy小例子 scrapy实例

转载

deanyuancn 2023-07-02 20:13:03

文章标签 python scrapy小例子 ide json 数据导出 文章分类 Python 后端开发

本文从一个基础案例入手，较为详细的分析了scrapy项目的建设过程（在官方文档的基础上做了调整）。主要内容如下：

0、准备工作

1、scrapy项目结构

2、编写spider

3、编写item.py

4、编写pipelines.py

5、设置Settings.py

6、运行spider

0、准备工作

安装scrapy，在cmd中输入命令（windows）即可完成：pipinstall scrapy

1、scrapy项目结构

建立scrapy项目，在cmd中输入命令（windows）：scrapystart project tutorial。项目的目录结构如下。

tutorial/
   scrapy.cfg
   tutorial/
       __init__.py
       items.py
       pipelines.py
       settings.py
       spiders/
           __init__.py
           myspider.py

一般来说，要完成一个能用的scrapy爬虫，需要编写或者配置的文件包括myspider.py、settings.py、item.py和pipeline.py。其中myspider.py在spider目录下，是核心的爬虫文件；settings.py用来配置爬取时间间隔等参数；item.py用来定义数据提取的项目；pipeline.py和item.py配合使用，用来辅助完成爬取数据的格式化输出。

2、编写spider.py

spider文件可以自行命名，此处的爬虫文件名为dmoz_spider.py。该文件定义了爬虫名称、目标网址、执行函数等。以下是spider代码示例，它定义了爬虫名称name，允许运行域allowed_domain，起始爬取页面网址start_urls，parse(self, response)是spider必须实现的接口，负责提取页面中title、href和desc等属性，详细内容可参考以下代码注释。

1. # -*- coding:utf-8 -*-  
2. import scrapy  
3. from tutorial.itemsimport DmozItem  
4.    
5. classDmozSpider(scrapy.Spider):  
6. 'dmoz' #爬虫名，供命令scrapycrawl domz使用  
7. 'dmoz.org' #允许爬虫运行的域  
8. 'http://www.dmoz.org/Computers/Programming/Languages/Python/Books/',  
9. 'http://www.dmoz.org/Computers/Programming/Languages/Python/Resources/']#爬取url  
10.      
11.     def parse(self, response): #页面解析函数，这里必须为parse()  
12. for sel in response.xpath('//ul/li'):  
13.             item = DmozItem() #在items.py中定义的需解析项目  
14. 'title'] =sel.xpath('a/text()').extract() #使用xpath提取特定属性  
15. 'href'] =sel.xpath('a/@href').extract()             
16. 'desc'] =sel.xpath('text()').extract()  
17.             yield item

3、编写item.py

应该引起注意的是：item.py和dmoz_spider.py是相互关联的；Item.py中定义的title、link和desc，在dmoz_spider.py中将会用到。

1. # -*- coding:utf-8 -*-  
2. # 定义爬取对象属性  
3. import scrapy  
4. classDmozItem(scrapy.Item):  
5.     title = scrapy.Field()  
6.     link = scrapy.Field()  
7.     desc = scrapy.Field()  
8. pass

4、编写pipelines.py

pipelines是scrapy提供的数据导出手段之一，通过pipelines可以进行复杂的数据导出操作，包括将数据导出到json文件或者数据库。pipelines.py中必须实现process_item(self, item, spider)接口，用于处理需要保存的item数据，其中spider为所定义的爬虫dmoz。

pipelines.py代码见下文，其中技术要点有：

1）使用codecs.open()以给定的模式mode和编码encoding打开文件，文件不存在时则新建。
2）使用json.dumps()将dict转化为json格式的字符串，如果ensure_ascii设为False，则返回值将会是Unicode格式。

1. import json  
2. import codecs  
3. #写pipeline时需要注意编码问题的处理  
4. class dmozPipeline(object):  
5. def __init__(self):  
6. self.file = codecs.open('dmoz.json', mode='wb',encoding='utf-8')  
7. def process_item(self, item, spider):  
8. False)+'\n'# ensure_ascii=False很重要  
9. self.file.write(line)  
10. return item  
11. def close_spider(self,spider):  
12. self.file.close()

补充：另一种替代的数据导出方式是：在cmd中运行scrapycrawl dmoz –o abc.json，其中abc.json为导出文件。采用该方式无需配置pipeline，因为程序执行过程中不会用到。

5、设置Settings.py

通过settings告知spider将启用pipeline，其余用默认设置就好了。

1. ITEM_PIPELINES = {  
2. 'tutorial.pipelines.dmozPipeline': 300,  
3. }

6、运行spider项目

在cmd中运行scrapycrawl dmoz，可以将爬取的所有结果以json格式导出到名为dmoz.json的文件中，文件名可以在pipeline.py中修改。

至此，一个完整的scrapy爬虫项目就算完成了。

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

上一篇：android中anr异常 android anr原因

下一篇：java dll unsigned参数 java dll不能运行

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯