python 抓取文章

原创

mob649e81637cea 2023-11-25 07:11:15 ©著作权

文章标签 html HTML Python 文章分类 Python 后端开发

©著作权归作者所有：来自51CTO博客作者mob649e81637cea的原创作品，请联系作者获取转载授权，否则将追究法律责任

Python 抓取文章

1. 概述

在互联网时代，海量的信息通过各种网站和平台发布和传播。有时我们需要从网页中抓取特定的文章内容，以进行分析、存储或展示。Python作为一种强大的脚本语言，提供了丰富的工具和库来实现网页抓取任务。本文将介绍如何使用Python进行文章抓取，并提供相关的示例代码。

2. 抓取网页内容

要抓取网页内容，首先需要获取网页的HTML源代码。Python中有多种方式可以实现这一目标，包括使用第三方库（如requests、urllib）或使用内置的urllib模块。下面是一个使用requests库抓取网页内容的示例代码：

import requests

def get_html(url):
    response = requests.get(url)
    return response.text

url = "
html = get_html(url)
print(html)

上述代码使用了requests库的get()方法发送GET请求，获取到网页的响应对象。然后通过response.text属性获取网页的HTML源代码。最后将HTML源代码打印出来。

3. 解析网页内容

抓取到网页的HTML源代码后，我们需要从中提取出我们需要的文章内容。这通常涉及到解析HTML文档，提取出特定的标签或属性内容。Python中有多个库可以用于解析HTML，其中最常用的是BeautifulSoup库。下面是一个使用BeautifulSoup解析网页内容的示例代码：

from bs4 import BeautifulSoup

def parse_html(html):
    soup = BeautifulSoup(html, 'html.parser')
    article_title = soup.find('h1').text
    article_content = soup.find('div', class_='content').text
    return article_title, article_content

title, content = parse_html(html)
print("文章标题：", title)
print("文章内容：", content)

上述代码首先导入了BeautifulSoup库，并使用html.parser解析器创建了一个BeautifulSoup对象。然后使用find()方法找到HTML中指定的标签和属性，并提取出相应的文本内容。最后将文章标题和内容打印出来。

4. 存储文章内容

抓取到文章内容后，我们可以选择将其存储到本地文件或数据库中，以便后续使用。以下是一个将文章内容保存到本地文件的示例代码：

def save_to_file(title, content):
    with open('article.txt', 'w', encoding='utf-8') as f:
        f.write(f"文章标题：{title}\n\n")
        f.write(f"{content}\n")

save_to_file(title, content)

上述代码使用了open()函数创建一个文件对象，并使用w模式打开文件以写入内容。然后使用文件对象的write()方法将文章标题和内容写入文件中。最后关闭文件对象。

5. 完整示例

下面是一个完整示例，演示了如何使用Python抓取文章、解析网页内容并将内容保存到本地文件：

import requests
from bs4 import BeautifulSoup

def get_html(url):
    response = requests.get(url)
    return response.text

def parse_html(html):
    soup = BeautifulSoup(html, 'html.parser')
    article_title = soup.find('h1').text
    article_content = soup.find('div', class_='content').text
    return article_title, article_content

def save_to_file(title, content):
    with open('article.txt', 'w', encoding='utf-8') as f:
        f.write(f"文章标题：{title}\n\n")
        f.write(f"{content}\n")

url = "
html = get_html(url)
title, content = parse_html(html)
save_to_file(title, content)

6. 类图

下面是一个使用mermaid语法绘制的类图，描述了文章抓取过程中涉及的类和它们之间的关系：

classDiagram
    class 抓取器 {
        + get_html(url: str) : str
    }
    class 解析器 {
        + parse_html(html: str) : tuple
    }
    class 存储器 {
        + save_to_file(title: str, content: str) : None
    }

    抓取器 -- 解析器
    解析