python 获取图片src

原创

mob64ca12d4650e 2024-09-27 06:27:09 ©著作权

文章标签 HTML 获取图片 html 文章分类 Python 后端开发

©著作权归作者所有：来自51CTO博客作者mob64ca12d4650e的原创作品，请联系作者获取转载授权，否则将追究法律责任

如何使用 Python 获取图片的 src 属性

在网页开发和数据分析中，获取图片的 src 属性是一项很常见的任务。如果你是一名刚入行的小白，别担心，今天我会带你一步一步地完成这项工作。

整体流程

在我们开始之前，先来看看整个流程。下面是实现步骤的表格：

步骤	说明
1. 安装必要的库	我们将使用 `requests` 和 `BeautifulSoup`
2. 发起 HTTP 请求	获取网页的 HTML 内容
3. 解析 HTML	使用 BeautifulSoup 解析 HTML
4. 获取图片 src	提取网页中所有图片的 `src` 属性
5. 输出结果	展示获取到的图片 `src` 内容

接下来，让我们逐步实现这些步骤。

第一步：安装必要的库

在开始编码之前，我们需要确保安装了 requests 和 BeautifulSoup4 这两个库。你可以在命令行中使用以下命令安装这些库：

pip install requests beautifulsoup4

第二步：发起 HTTP 请求

一旦安装了库，我们接下来需要通过 HTTP 请求获取网页的 HTML 内容。以下是所需的代码：

import requests  # 导入 requests 库

# 定义要访问的网页 URL
url = '  # 将此处更换为实际网页的 URL

# 发起 GET 请求并获取响应
response = requests.get(url)

# 检查请求是否成功
if response.status_code == 200:
    html_content = response.text  # 获取网页的HTML内容
else:
    print(f"Error: {response.status_code}")  # 输出错误状态码

代码解释：

requests.get(url)：发起 GET 请求，以获取网页内容。
response.status_code：检查请求的状态码，200表示请求成功。

第三步：解析 HTML

获取到 HTML 内容后，我们会使用 BeautifulSoup 库对其进行解析。下面是代码示例：

from bs4 import BeautifulSoup  # 导入 BeautifulSoup

# 用 BeautifulSoup 解析 HTML 内容
soup = BeautifulSoup(html_content, 'html.parser')  # 创建解析对象

代码解释：

BeautifulSoup(html_content, 'html.parser')：使用标准的 HTML 解析器解析网页内容。

第四步：获取图片 src 属性

现在我们可以从解析后的 HTML 中提取所有图片的 src 属性。下面是获取图片 src 的代码示例：

# 查找所有的 img 标签
images = soup.find_all('img')  # 查找所有img标签

# 提取每个 img 标签的 src 属性
image_sources = [img['src'] for img in images if 'src' in img.attrs]  # 使用列表推导式

# 输出所有图片的 src
for src in image_sources:
    print(src)  # 打印每个图片的 src

代码解释：

soup.find_all('img')：查找所有的 img 标签。
img['src']：获取每个 img 标签的 src 属性。
if 'src' in img.attrs：确保 img 标签具有 src 属性。

第五步：输出结果

上面的代码已经包含了输出的部分。你应该能够在控制台中看到网页上所有图片的 src 路径。

饼状图与类图

接下来，我们可以用饼状图与类图表示代码的结构和功能。

pie
    title 图片源获取流程
    "安装库" : 20
    "发起请求" : 20
    "解析 HTML" : 20
    "提取 src" : 20
    "输出结果" : 20

classDiagram
    class WebScraper {
        +requests
        +BeautifulSoup
        +html_content
        +image_sources
        +get_image_sources(url)
    }
    WebScraper --> requests
    WebScraper --> BeautifulSoup