scrapy爬取数据存入mongodb

原创

mob64ca12eb7baf 2023-12-12 05:41:15 ©著作权

©著作权归作者所有：来自51CTO博客作者mob64ca12eb7baf的原创作品，请联系作者获取转载授权，否则将追究法律责任

Scrapy爬取数据存入MongoDB

概述

在互联网时代，海量的数据可以通过网络获取，爬虫成为了一种常见的数据采集方式。Scrapy是一个功能强大的Python爬虫框架，它可以帮助我们快速、高效地从网页上提取数据。而MongoDB是一个NoSQL数据库，适合存储非结构化的数据，因此将爬取的数据存入MongoDB成为了一种常见的处理方式。

本篇文章将介绍如何使用Scrapy爬取数据，并将数据存入MongoDB中。

安装Scrapy和MongoDB

首先，我们需要安装Scrapy和MongoDB。

pip install scrapy

pip install pymongo

创建Scrapy项目

使用Scrapy创建一个新的项目，命名为"myproject"。

scrapy startproject myproject

创建Spider

Spider是Scrapy中用于定义爬取规则的部分。我们需要在项目中创建一个Spider来指定要爬取的网站和相应的处理方法。

import scrapy

class MySpider(scrapy.Spider):
    name = 'myspider'
    start_urls = ['

    def parse(self, response):
        # 在这里处理网页的响应
        pass

提取数据

在Spider的parse方法中，我们可以使用XPath或CSS选择器来提取网页中的数据。

def parse(self, response):
    title = response.xpath('//h1/text()').get()
    yield {'title': title}

存储数据到MongoDB

使用pymongo库连接MongoDB，并将提取到的数据存入数据库。

import pymongo

class MySpider(scrapy.Spider):
    # ...

    def __init__(self):
        self.client = pymongo.MongoClient('mongodb://localhost:27017/')
        self.db = self.client['mydatabase']
        self.collection = self.db['mycollection']

    def parse(self, response):
        title = response.xpath('//h1/text()').get()
        data = {'title': title}
        self.collection.insert_one(data)

完整的代码

import scrapy
import pymongo

class MySpider(scrapy.Spider):
    name = 'myspider'
    start_urls = ['

    def __init__(self):
        self.client = pymongo.MongoClient('mongodb://localhost:27017/')
        self.db = self.client['mydatabase']
        self.collection = self.db['mycollection']

    def parse(self, response):
        title = response.xpath('//h1/text()').get()
        data = {'title': title}
        self.collection.insert_one(data)

流程图

flowchart TD
    A[开始] --> B[创建Spider]
    B --> C[提取数据]
    C --> D[存储数据到MongoDB]
    D --> E[结束]

类图

classDiagram
    class MySpider {
        +name
        +start_urls
        -client
        -db
        -collection
        +__init__()
        +parse()
    }