python 批量提取网页图片

原创

mob649e815adb02 2023-07-21 13:06:51 ©著作权

文章标签 Python 示例代码 HTTP 文章分类 Python 后端开发

©著作权归作者所有：来自51CTO博客作者mob649e815adb02的原创作品，请联系作者获取转载授权，否则将追究法律责任

Python 批量提取网页图片

在网页中，图片是一种非常重要的元素，它丰富了网页的内容，提升了用户体验。有时候我们需要从一个网页中提取所有的图片，这可能会是一项繁琐的任务。但是，使用 Python 编写一个脚本来完成这个任务将变得非常简单和高效。

本文将介绍如何使用 Python 提取网页中的图片，并提供一个简单的示例来帮助你快速上手。

准备工作

在开始之前，我们需要安装 Python 的 requests 和 BeautifulSoup 库。

使用以下命令来安装它们：

pip install requests
pip install beautifulsoup4

requests 库用于发送 HTTP 请求，而 BeautifulSoup 库用于解析 HTML 文档。

提取图片的步骤

下面是从网页中提取图片的一般步骤：

使用 requests 库发送 HTTP 请求，获取网页的内容。
使用 BeautifulSoup 库解析网页的内容，找到所有的图片标签。
获取每个图片标签的 src 属性，即图片的 URL。
使用 requests 库下载图片，并保存到本地。

示例代码

下面是一个简单的示例代码，它可以提取一个网页中的所有图片，并将它们保存到本地。

import requests
from bs4 import BeautifulSoup
import os

def download_image(url, save_path):
    response = requests.get(url)
    with open(save_path, 'wb') as file:
        file.write(response.content)

def extract_images(url, save_dir):
    response = requests.get(url)
    soup = BeautifulSoup(response.text, 'html.parser')
    img_tags = soup.find_all('img')
    for img_tag in img_tags:
        img_url = img_tag.get('src')
        if img_url.startswith('http'):
            img_name = img_url.split('/')[-1]
            save_path = os.path.join(save_dir, img_name)
            download_image(img_url, save_path)

# 示例用法
url = '  # 替换为你需要提取图片的网页 URL
save_dir = 'images'  # 图片保存的目录
if not os.path.exists(save_dir):
    os.makedirs(save_dir)
extract_images(url, save_dir)

在上面的示例代码中，download_image 函数用于下载图片，extract_images 函数用于提取图片。

在示例用法部分，你需要将 url 替换为你需要提取图片的网页的 URL，save_dir 替换为你想要保存图片的目录。