scrapy 新浪微博存入mongodb数据库

原创

mob649e8168b406 2024-08-09 11:42:58 ©著作权

©著作权归作者所有：来自51CTO博客作者mob649e8168b406的原创作品，请联系作者获取转载授权，否则将追究法律责任

使用 Scrapy 抓取新浪微博并存储到 MongoDB 数据库的完整指南

在这篇文章中，我们将学习如何使用 Scrapy 框架从新浪微博抓取数据并将数据存储到 MongoDB 数据库中。本文将详细介绍整件事情的流程，并逐步解释每一步所需的代码。这对于刚入行的小白来说，将是一个很好的学习项目。

整体流程

在进行开发前，了解整个流程是非常重要的。以下是实现这一功能的步骤：

步骤编号	步骤描述	具体操作
1	创建 Scrapy 项目	使用 Scrapy 命令创建项目
2	定义 Item	创建数据模型来定义存储数据的结构
3	创建 Spider	编写 Scrapy 爬虫代码，抓取新浪微博数据
4	设置 MongoDB 管道	编写管道，将抓取的数据存入 MongoDB
5	运行爬虫并测试	运行爬虫，检查数据是否成功存入 MongoDB

第一步：创建 Scrapy 项目

首先，我们需要安装 Scrapy。如果还没有安装，请运行：

pip install scrapy

使用以下命令来创建一个新的 Scrapy 项目：

scrapy startproject weibo_scraper

这将创建一个名为 weibo_scraper 的新项目目录。接下来，进入项目目录：

cd weibo_scraper

第二步：定义 Item

在 weibo_scraper 新项目中，我们需要定义一个 Item 来存储我们抓取的数据。在 items.py 文件中，添加以下代码：

import scrapy

class WeiboItem(scrapy.Item):
    """定义微博数据的结构"""
    username = scrapy.Field()  # 用户名
    content = scrapy.Field()    # 微博内容
    timestamp = scrapy.Field()   # 时间戳

第三步：创建 Spider

接下来，我们需要编写一个 Spider 来实际抓取数据。在 spiders 目录中创建一个新的文件 weibo_spider.py，添加以下代码：

import scrapy
from weibo_scraper.items import WeiboItem  # 导入 WeiboItem

class WeiboSpider(scrapy.Spider):
    name = 'weibo_spider'
    allowed_domains = ['sina.com.cn']
    start_urls = ['

    def parse(self, response):
        """解析网页，提取数据"""
        # TODO: 实现数据抓取逻辑
        for weibo in response.css('selector_for_weibo_posts'):
            item = WeiboItem()
            item['username'] = weibo.css('selector_for_username::text').get()
            item['content'] = weibo.css('selector_for_content::text').get()
            item['timestamp'] = weibo.css('selector_for_timestamp::text').get()

            yield item  # 生成数据项

代码解析

allowed_domains: 我们允许爬取的域名。
start_urls: 要开始抓取的 url 列表。
parse(): 这是 Scrapy 默认的回调函数，处理响应内容并提取数据。

第四步：设置 MongoDB 管道

接下来，我们需要将抓取到的数据存储到 MongoDB 中。在 weibo_scraper 目录下创建一个名为 pipelines.py 的文件，并添加以下代码：

import pymongo

class WeiboPipeline:

    def open_spider(self, spider):
        """开启爬虫时连接 MongoDB"""
        self.client = pymongo.MongoClient("mongodb://localhost:27017/")
        self.db = self.client["weibo_database"]  # 创建或连接数据库
        self.collection = self.db["weibo_posts"]  # 创建或连接集合

    def close_spider(self, spider):
        """关闭爬虫时关闭 MongoDB连接"""
        self.client.close()

    def process_item(self, item, spider):
        """处理抓取到的数据，存入 MongoDB"""
        self.collection.insert_one(dict(item))  # 存储数据
        return item

代码解析

open_spider(): 当爬虫开启时，创建一个 MongoDB 客户端并连接到数据库。
close_spider(): 在爬虫结束时，关闭数据库连接。
process_item(): 将抓取的每个数据项存储到 MongoDB 中。

第五步：运行爬虫并测试

最后，我们需要在 settings.py 文件中启用管道。在 settings.py 的末尾添加以下内容：

ITEM_PIPELINES = {
    'weibo_scraper.pipelines.WeiboPipeline': 300,  # 设置管道的优先级
}

保存所有更改并在项目根目录下用以下命令运行爬虫：

scrapy crawl weibo_spider

数据存储验证

数据获取后，可以通过 MongoDB 客户端工具（如 Robo 3T 或 MongoDB Compass）验证数据是否成功存储。

饼状图展示

在数据抓取的过程中，我们可能会需要对数据的分布情况进行分析，以下是一个示例饼状图，展示了我们抓取的微博超过一定字数的比例。

pie
    title 微博内容字数分布
    "小于100字": 40
    "100-200字": 35
    "200字以上": 25

总结

在这篇文章中，我们通过六个步骤学习了如何使用 Scrapy 从新浪微博抓取数据并将其存入 MongoDB。我们创建了 Scrapy 项目，定义了数据模型，编写了爬虫，设置了存储管道，并在最后运行并测试了爬虫。

希望这个过程能够帮助初学者更好地理解抓取的工作原理，并为后续更复杂的项目打下基础。如果你在实现过程中遇到任何问题，请不要犹豫，继续学习和实践，相信你会越来越熟练！

上一篇：typescript 对象中添加方法

下一篇：python安装卡在test_socket

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯