python爬虫爬取多个图片

原创

mob64ca12d652c7 2024-08-06 03:11:42 ©著作权

文章标签 下载图片网页内容 python 文章分类 Python 后端开发

©著作权归作者所有：来自51CTO博客作者mob64ca12d652c7的原创作品，请联系作者获取转载授权，否则将追究法律责任

Python 爬虫爬取多个图片的完整指南

作为一名新手，学习Python爬虫技术可以让你从互联网上获取大量的数据，尤其是图片。本文将带你走过整个流程，并逐步解释每个步骤的实现代码。

整体流程

我们将通过以下步骤来实现图片的爬取：

步骤	操作	说明
1	确定要爬取的网页地址	找到你想要下载图片的页面
2	发送HTTP请求并获取网页响应	使用`requests`库进行请求
3	解析网页内容	使用`BeautifulSoup`提取数据
4	提取图片URL地址	获取所有图片链接
5	下载图片并保存到本地	使用`requests`下载图片

步骤详细说明

1. 确定要爬取的网页地址

确定哪一个网页包含你想要的图片。比如，我们以一个包含多张风景图片的网页为例。

2. 发送HTTP请求并获取网页响应

我们首先需要安装所需的库：

pip install requests beautifulsoup4

然后，我们使用requests库发送请求：

import requests

# 发送GET请求
url = '  # 替换为你要爬取的网页地址
response = requests.get(url)

# 检查请求是否成功
if response.status_code == 200:
    print("请求成功！")
else:
    print("请求失败，状态码:", response.status_code)

3. 解析网页内容

使用BeautifulSoup解析网页内容：

from bs4 import BeautifulSoup

# 解析网页内容
soup = BeautifulSoup(response.text, 'html.parser')

# 打印解析后的内容
print(soup.prettify())

4. 提取图片URL地址

现在，我们需要从解析后的内容中提取图片的URL地址：

# 找到所有的<img>标签
img_tags = soup.find_all('img')

# 提取每个<img>标签的src属性
img_urls = []
for img in img_tags:
    img_url = img.get('src')
    img_urls.append(img_url)

# 打印提取到的图片链接
print("找到的图片链接:", img_urls)

5. 下载图片并保存到本地

一旦我们得到了图片的URL，我们就可以将它们下载到本地。

import os

# 创建本地存储目录
os.makedirs('images', exist_ok=True)

# 下载每张图片
for img_url in img_urls:
    # 获取图片的文件名
    img_name = os.path.join('images', os.path.basename(img_url))
    
    # 发送请求获取图片
    img_response = requests.get(img_url)

    # 确认请求成功
    if img_response.status_code == 200:
        with open(img_name, 'wb') as f:
            f.write(img_response.content)
            print(f"下载成功: {img_name}")
    else:
        print(f"下载失败: {img_url}，状态码: {img_response.status_code}")

代码结构的关系图

接下来，我们用mermaid语法来展示代码的关系结构。

erDiagram
    REQUEST {
        string url
        string status_code
    }
    RESPONSE {
        string content
    }
    IMAGE {
        string url
        string filename
    }
    
    REQUEST ||--o{ RESPONSE : sends
    RESPONSE }o--|| IMAGE : contains