python 爬取小说如何放入数据库

原创

mob649e81673fa5 2024-09-01 05:47:09 ©著作权

文章标签 App 数据库 Python 文章分类 Python 后端开发

©著作权归作者所有：来自51CTO博客作者mob649e81673fa5的原创作品，请联系作者获取转载授权，否则将追究法律责任

Python爬取小说并放入数据库

在网络文学盛行的今天，爬虫技术已经成为了获取网站数据的重要工具。Python作为一种高效、易用的编程语言，广泛应用于数据抓取、处理和存储。本文将介绍如何使用Python爬取小说，并将爬取的数据存入数据库。我们会逐步分解这个过程，并提供详细的代码示例。

1. 环境准备

在开始爬取小说之前，我们需要做一些环境准备工作：

安装Python: 确保你的计算机上已经安装了Python，可以通过命令 python --version 来检查。
安装依赖库: 本示例使用 requests 和 BeautifulSoup 进行网页请求和解析，同时使用 SQLite 存储数据。可以通过以下命令安装这些库：
```
pip install requests beautifulsoup4
```
数据库: 我们将使用SQLite，因为它是一个轻量级的关系数据库，易于使用。

2. 确定目标网站

在正式开始爬取之前，我们需要选择一个目标网站。假设我们要爬取的小说网站是“example.com”，其中某个小说的 URL 为 robots.txt` 文件，避免违规爬取。

3. 爬取小说内容

在此步骤中，我们将编写代码来访问网页，并提取所需的内容。以下是一个基本的爬虫示例：

import requests
from bs4 import BeautifulSoup

def fetch_novel(chapter_url):
    response = requests.get(chapter_url)
    response.encoding = 'utf-8'  # 设置编码
    if response.status_code == 200:
        soup = BeautifulSoup(response.text, 'html.parser')
        title = soup.find('h1').text  # 假设标题在 <h1> 标签内
        content = soup.find('div', class_='content').text  # 假设内容在 class 是 'content' 的 <div> 内
        return title, content
    else:
        print(f"Failed to retrieve chapter: {chapter_url}")
        return None, None

4. 数据库设计

在我们将数据存储到数据库之前，需要设计数据库表。在这里，我们将创建一个名为 novels 的表，包含以下字段：

id: 主键，自增长
title: 章节标题
content: 章节内容

创建数据库表的代码如下：

import sqlite3

def create_database():
    conn = sqlite3.connect('novels.db')
    cursor = conn.cursor()
    cursor.execute('''
        CREATE TABLE IF NOT EXISTS novels (
            id INTEGER PRIMARY KEY AUTOINCREMENT,
            title TEXT NOT NULL,
            content TEXT NOT NULL
        )
    ''')
    conn.commit()
    conn.close()

5. 存储数据到数据库

我们需要编写一个函数将获取的小说章节存储到数据库中。示例代码如下：

def save_to_database(title, content):
    conn = sqlite3.connect('novels.db')
    cursor = conn.cursor()
    cursor.execute('INSERT INTO novels (title, content) VALUES (?, ?)', (title, content))
    conn.commit()
    conn.close()

6. 整合整个过程

现在我们把所有代码整合成一个完整的爬虫程序。假设我们要爬取多章小说，每章的 URL 按一定规律生成（如 `

以下是完整示例代码：

import requests
from bs4 import BeautifulSoup
import sqlite3

def create_database():
    conn = sqlite3.connect('novels.db')
    cursor = conn.cursor()
    cursor.execute('''
        CREATE TABLE IF NOT EXISTS novels (
            id INTEGER PRIMARY KEY AUTOINCREMENT,
            title TEXT NOT NULL,
            content TEXT NOT NULL
        )
    ''')
    conn.commit()
    conn.close()

def fetch_novel(chapter_url):
    response = requests.get(chapter_url)
    response.encoding = 'utf-8'
    if response.status_code == 200:
        soup = BeautifulSoup(response.text, 'html.parser')
        title = soup.find('h1').text
        content = soup.find('div', class_='content').text
        return title, content
    else:
        print(f"Failed to retrieve chapter: {chapter_url}")
        return None, None

def save_to_database(title, content):
    conn = sqlite3.connect('novels.db')
    cursor = conn.cursor()
    cursor.execute('INSERT INTO novels (title, content) VALUES (?, ?)', (title, content))
    conn.commit()
    conn.close()

def main():
    create_database()
    base_url = '
    for chapter_number in range(1, 11):  # 假设爬取前10章
        chapter_url = base_url.format(chapter_number)
        title, content = fetch_novel(chapter_url)
        if title and content:
            save_to_database(title, content)
            print(f"Saved chapter: {title}")

if __name__ == '__main__':
    main()

7. 测试与运行

运行上述代码，在控制台中查看输出。如果所有章节均成功保存，则数据库 novels.db 中将存有相应的小说数据。

8. 结论

本文介绍了如何使用Python爬取小说并将其保存到数据库中。过程包括准备工作、抓取目标网站数据、数据库设计以及数据存储。通过代码示例，我们展示了如何将任务实施。

你可以根据个人需求进一步扩展该爬虫，如增加错误重试机制、设置时间间隔、提取更多信息（如作者、分类等），甚至将内容存储到更复杂的数据库（如MySQL、PostgreSQL等）。

以下是程序的数据流逻辑序列图，用于更清晰地展示流程：

sequenceDiagram
    participant User
    participant App
    participant Database

    User->>App: Start Program
    App->>Database: Create Database
    App->>App: Fetch Novel Chapter
    App->>Database: Save Chapter
    App->>App: Fetch Next Chapter
    App->>Database: Save Chapter
    App->>User: Complete

希望通过本教程，读者能够掌握Python爬虫的基本技巧，并在此基础上进行更多的尝试与学习。