python scrapy 直接运行

原创

mob64ca12ee2ba5 2024-12-07 04:34:50 ©著作权

©著作权归作者所有：来自51CTO博客作者mob64ca12ee2ba5的原创作品，请联系作者获取转载授权，否则将追究法律责任

Python Scrapy 直接运行

在如今的信息时代，网络数据的抓取与分析变得尤为重要。Python作为一种流行且易用的编程语言，提供了多种爬虫框架，其中Scrapy是最受欢迎的之一。Scrapy不仅功能强大，并且具有良好的文档和社区支持。本篇文章将介绍如何使用Scrapy进行数据抓取，并展示如何直接运行Scrapy项目。

什么是Scrapy？

Scrapy是一个用于数据抓取的开源框架，允许用户快速编写爬虫程序，从网站上提取、处理和存储数据。Scrapy的核心功能包括：

异步处理：Scrapy采用Twisted库实现异步网络请求，高效处理大量请求。
强大的选择器：Scrapy内置CSS选择器和XPath支持，使得提取数据变得简单。
数据持久化：支持将抓取的数据存储为多种格式，如JSON、CSV和数据库等。
中间件支持：允许在请求和响应之间插入自定义处理逻辑，例如代理和限流。

Scrapy项目结构

创建Scrapy项目后，项目结构大致如下：

my_scrapy_project/
    scrapy.cfg
    my_scrapy_project/
        __init__.py
        items.py
        middlewares.py
        pipelines.py
        settings.py
        spiders/
            __init__.py

scrapy.cfg：项目配置文件
items.py：定义数据结构
middlewares.py：定义中间件
pipelines.py：处理数据的管道
settings.py：配置信息
spiders/：存放爬虫代码

创建Scrapy项目

使用以下命令创建一个新的Scrapy项目：

scrapy startproject my_scrapy_project

进入项目目录：

cd my_scrapy_project

创建Spider

爬虫（Spider）定义了如何抓取信息。让我们创建一个简单的爬虫，抓取Quotes to Scrape网站上的名言。

使用以下命令创建爬虫：

scrapy genspider quotes quotes.toscrape.com

Scrapy在spiders目录下创建了一个名为quotes.py的文件。编辑该文件，内容如下：

import scrapy

class QuotesSpider(scrapy.Spider):
    name = 'quotes'
    start_urls = ['

    def parse(self, response):
        for quote in response.css('div.quote'):
            yield {
                'text': quote.css('span.text::text').get(),
                'author': quote.css('span small.author::text').get(),
                'tags': quote.css('div.tags a.tag::text').getall(),
            }
        
        next_page = response.css('li.next a::attr(href)').get()
        if next_page is not None:
            yield response.follow(next_page, self.parse)

在上面的代码中，我们定义了一个名为QuotesSpider的爬虫。该爬虫从指定 URL 开始抓取，并使用parse方法提取数据。

直接运行Scrapy爬虫

现在，我们可以直接运行这个爬虫。以下命令将爬虫抓取的数据以JSON格式保存到quotes.json文件中：

scrapy crawl quotes -o quotes.json

数据结构及关系

在爬虫中，抓取的数据以字典的形式输出。让我们用类图和关系图来描述爬虫抓取的数据。

类图

以下是抓取数据的类图，展示了Quote类的结构：

classDiagram
    class Quote {
      + String text
      + String author
      + List<String> tags
    }

关系图

在这个例子中，Quote与Tags之间存在一对多的关系，每个名言可以有多个标签：

erDiagram
    Quote {
        String text
        String author
    }
    Tag {
        String name
    }
    
    Quote ||--o{ Tag : has

数据存储

Scrapy允许将抓取的数据存储为多种格式。在本示例中，我们存储为JSON格式。在实际使用中，您还可以将数据存储在MongoDB、PostgreSQL等数据库中，只需配置相应的管道。

在pipelines.py中实现自定义管道，存储数据：

import json

class QuotesPipeline:
    def __init__(self):
        self.file = open('quotes.json', 'w', encoding='utf-8')
        self.file.write('[')

    def process_item(self, item, spider):
        line = json.dumps(dict(item), ensure_ascii=False) + ",\n"
        self.file.write(line)
        return item

    def close_spider(self, spider):
        self.file.write(']')
        self.file.close()

总结

在这篇文章中，我们介绍了Scrapy的基本概念和用法。通过创建一个简单的名言爬虫，我们可以直接运行Scrapy项目来抓取数据。Scrapy的强大功能和灵活的架构使得数据抓取变得简单高效。通过灵活的配置和管道系统，我们可以轻松地将抓取的数据存储于不同的格式或数据库中。

Scrapy不仅适用于技术人员，也可以帮助普通用户在数据分析和信息检索等方面简化工作流程。随着对网络数据需求的不断增加，掌握Scrapy将会为您的数据科学之旅增添一笔丰厚的财富。如果你有意进行更多的探索，Scrapy文档中有丰富的示例和指南，助你一臂之力。

上一篇：Android 打印cpu的占用率

下一篇：java 进程物理内存跟配置内存

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯