python 爬虫某个div下的数据获取方式

原创

mob64ca12dc54c5 2024-10-05 06:17:34 ©著作权

©著作权归作者所有：来自51CTO博客作者mob64ca12dc54c5的原创作品，请联系作者获取转载授权，否则将追究法律责任

Python 爬虫：获取某个 DIV 下的数据

在本文中，我们将通过简单的步骤教你如何实现 Python 爬虫，获取某个 DIV 下的数据。无论你是开发新手还是正在学习的学生，本文都会对你有所帮助。接下来，我们将通过表格展示整个流程，并逐步深入每一个环节。

1. 整体流程

下面是我们获取某个 DIV 下的数据的整体流程：

步骤	描述
1. 安装依赖	安装必要的 Python 库
2. 发送请求	使用 `requests` 库获取网页内容
3. 解析内容	使用 `BeautifulSoup` 解析网页
4. 提取数据	定位到需要的 DIV 并提取数据
5. 存储数据	将提取到的数据储存到文件或数据库

2. 步骤详细解读

步骤 1：安装依赖

首先，我们需要安装 requests 和 BeautifulSoup 这两个库。可以打开终端，使用以下命令：

pip install requests beautifulsoup4

步骤 2：发送请求

接下来，我们需要使用 requests 库发送 HTTP 请求，获取网页内容。

import requests  # 导入请求库

# 定义你想要爬取的网址
url = "

# 发送 GET 请求获取网页内容
response = requests.get(url)

# 检查请求是否成功
if response.status_code == 200:  # 判断 HTTP 响应状态码
    html_content = response.text  # 将网页内容存储
    print("请求成功！")
else:
    print("请求失败，状态码:", response.status_code)  # 输出失败信息

步骤 3：解析内容

接下来，使用 BeautifulSoup 来解析获取的网页内容。

from bs4 import BeautifulSoup  # 导入BeautifulSoup库

# 创建BeautifulSoup对象
soup = BeautifulSoup(html_content, 'html.parser')  # 分析网页内容

# 打印解析后的内容的前100个字符
print(soup.prettify()[:100])  # 预览整理后的HTML前100字符

步骤 4：提取数据

接下来，我们可以使用 BeautifulSoup 提取特定的 DIV 中的数据，使用选择器来定位到所需的内容。

# 假设我们要提取class为"target-class"的div中的内容
target_divs = soup.find_all('div', class_='target-class')  # 查找所有匹配的div

# 打印提取到的内容
for div in target_divs:
    print(div.text.strip())  # 输出每个div的文本内容（去除首尾空格）

步骤 5：存储数据

最后，我们将提取到的数据存储到文件中，如 CSV 格式，便于后续使用。

import csv  # 导入csv库

# 将数据写入CSV文件
with open('output.csv', mode='w', newline='', encoding='utf-8') as file:
    writer = csv.writer(file)  # 创建CSV写入对象
    
    # 写入标题
    writer.writerow(['Extracted Data'])
    
    # 写入提取的数据
    for div in target_divs:
        writer.writerow([div.text.strip()])  # 输出每个div的文本内容

3. 流程图和序列图展示

序列图示例

使用 Mermaid 语法可以直观地表示出我们的数据获取流程：

sequenceDiagram
    participant User
    participant Python
    participant WebServer
    User->>Python: 启动爬虫
    Python->>WebServer: 发送请求
    WebServer-->>Python: 返回网页内容
    Python->>Python: 解析网页
    Python->>Python: 提取DIV数据
    Python->>User: 显示提取的数据

旅行图示例

使用 Mermaid 的旅行图来展示我们的数据获取之旅：

journey
    title 爬虫数据获取之旅
    section 启动
      用户开始爬虫: 5: 用户
    section 发送请求
      请求网页: 5: Python
      收到响应: 4: WebServer
    section 数据解析
      解析HTML: 5: Python
      提取DIV数据: 5: Python
    section 存储数据
      保存到CSV: 5: Python