python 爬虫两个函数同时运行

原创

mob64ca12d4650e 2024-08-18 04:26:18 ©著作权

©著作权归作者所有：来自51CTO博客作者mob64ca12d4650e的原创作品，请联系作者获取转载授权，否则将追究法律责任

Python 爬虫实现多个函数同时运行的指南

在进行 Python 爬虫开发时，可能会遇到多个 URL 同时抓取的需求。为了提高程序的效率，可以使用多线程或 asyncio 来实现两个函数同时运行。本文旨在帮助初学者实现这个目标。为了让学习过程更加清晰，我们将通过一个简单的示例来介绍整个流程。

流程概述

在启动爬虫之前，让我们明确一下整个过程的步骤。以下是我们要实现的功能流程：

步骤	描述
1	导入所需的库
2	定义两个爬虫函数
3	使用多线程或 asyncio
4	启动并运行函数
5	处理抓取的数据

详细步骤

1. 导入所需的库

在这个步骤中，我们需要导入 Python 中处理 HTTP 请求和并发的库。

import requests           # 用于发送 HTTP 请求
import threading          # 用于多线程处理

2. 定义两个爬虫函数

接下来，我们定义两个简单的爬虫函数，每个函数会抓取一个指定的网站内容。为简单起见，这里以`

def crawl_example():
    """抓取 example.com 的内容"""
    response = requests.get("
    print("Example.com Response Length:", len(response.text))

def crawl_httpbin():
    """抓取 httpbin.org/ip 的内容"""
    response = requests.get("
    print("Httpbin.org Response:", response.json())

在上面的代码中：

crawl_example 函数：获取 ` 的页面内容，并输出该页面内容的长度。
crawl_httpbin 函数：获取 ` 的 JSON 数据，并将其打印出来。

3. 使用多线程或 asyncio

这里我们选择使用多线程来同时运行两个爬虫函数。创建新线程时，使用 threading.Thread。

def start_threads():
    """启动多个线程来运行爬虫函数"""
    thread1 = threading.Thread(target=crawl_example)  # 创建线程1
    thread2 = threading.Thread(target=crawl_httpbin)   # 创建线程2
    
    thread1.start()  # 启动线程1
    thread2.start()  # 启动线程2
    
    thread1.join()   # 等待线程1完成
    thread2.join()   # 等待线程2完成

4. 启动并运行函数

在这个步骤中，我们启动多线程的程序从而开始爬虫。

if __name__ == "__main__":
    start_threads()  # 启动线程并运行爬虫

5. 处理抓取的数据

数据处理部分可以在前面的函数中进行，或者单独定义一个函数。为了代码简单，我们不在此时处理具体的数据，只是打印抓取结果。

# 处理数据的函数可以在爬取完成后额外定义

状态图

下面是整个爬虫流程的状态图，使用 Mermaid 语法表示。

stateDiagram
    [*] --> Start
    Start --> ImportLibraries : 导入库
    ImportLibraries --> DefineFunctions : 定义爬虫函数
    DefineFunctions --> StartThreads : 启动线程
    StartThreads --> RunCrawlers : 运行爬虫
    RunCrawlers --> [*] : 完成