python 获取img标签下的src 正则

原创

mob64ca12ebb57f 2024-11-16 06:29:20 ©著作权

文章标签 正则表达式 HTML python 文章分类 Python 后端开发

©著作权归作者所有：来自51CTO博客作者mob64ca12ebb57f的原创作品，请联系作者获取转载授权，否则将追究法律责任

使用Python和正则表达式获取HTML中的`img`标签SRC

作为一名开发者，处理HTML内容并提取信息是常见的任务之一。在这篇文章中，我们将学习如何使用Python的正则表达式（Regex）来从HTML文本中获取img标签的src属性。本文将通过一个系统的流程分步讲解，包括代码示例和详细注释。

整体流程

在开始之前，我们可以将整个流程总结为以下几个步骤：

步骤	描述
1	获取要处理的HTML文本
2	导入必要的库
3	编写正则表达式
4	使用正则表达式提取`src`属性
5	输出结果

步骤详细说明

步骤1：获取要处理的HTML文本

首先，我们需要获得包含img标签的HTML文本。这可以是从文件读取，也可以是从网络请求获取。在本示例中，我们将直接使用一个示例字符串。你可以根据自己的需求进行替换。

html_text = '''
<!DOCTYPE html>
<html>
<head>
    <title>Test Page</title>
</head>
<body>
    Hello World!
    <img src="image1.jpg" alt="Image 1">
    <img src="image2.png" alt="Image 2">
    <img src="image3.gif" alt="Image 3">
</body>
</html>
'''

步骤2：导入必要的库

我们需要在Python脚本中导入re库，这是Python中用于正则表达式操作的标准库。

import re  # 导入re库，以便使用正则表达式

步骤3：编写正则表达式

接下来，我们需要编写正则表达式来匹配img标签和其src属性。我们需要确保可以捕获相应的值。

# 定义正则表达式，匹配<img>标签的src属性
pattern = r'<img\s+[^>]*src="([^"]*)"'

解释：

<img\s+：匹配以<img开头后跟一个或多个空格的内容。
[^>]*：匹配img标签中所有除了>的字符。
src="([^"]*)"：捕获src属性的值，确保它被"包围。

步骤4：使用正则表达式提取`src`属性

使用re.findall()方法可以从文本中找到所有匹配的src值。

# 使用re.findall()提取所有的src属性值
src_list = re.findall(pattern, html_text)

# 输出结果
print("找到的src属性：", src_list)

这段代码会输出找到的所有src属性。

步骤5：输出结果

最后，我们将输出提取出来的src属性列表。上述代码已完成了这个步骤。

完整代码示例

以下是所有步骤结合在一起的完整代码示例：

import re  # 导入re库

# 示例HTML文本
html_text = '''
<!DOCTYPE html>
<html>
<head>
    <title>Test Page</title>
</head>
<body>
    Hello World!
    <img src="image1.jpg" alt="Image 1">
    <img src="image2.png" alt="Image 2">
    <img src="image3.gif" alt="Image 3">
</body>
</html>
'''

# 定义正则表达式，匹配<img>标签的src属性
pattern = r'<img\s+[^>]*src="([^"]*)"'

# 使用re.findall()提取所有的src属性值
src_list = re.findall(pattern, html_text)

# 输出结果
print("找到的src属性：", src_list)

运行这段代码后，会输出：

找到的src属性： ['image1.jpg', 'image2.png', 'image3.gif']

项目进度甘特图

接下来，我们可以用Mermaid语法生成一个简单的甘特图来描述我们的进度：

gantt
    title 项目进度
    dateFormat  YYYY-MM-DD
    section HTML文本
    获取HTML文本         :a1, 2023-10-01, 1d
    section 导入库
    导入re库             :a2, after a1  , 1d
    section 正则表达式
    编写正则表达式       :a3, after a2  , 1d
    section 提取信息
    使用正则表达式提取src属性 :a4, after a3  , 1d
    输出结果             :a5, after a4  , 1d

数据占比饼状图

我们还可以使用饼状图来展示本项目中各个阶段的时间占比：

pie
    title 项目阶段占比
    "获取HTML文本" : 20
    "导入库" : 20
    "编写正则表达式" : 20
    "提取信息" : 20
    "输出结果" : 20

总结

在本文中，我们详细介绍了如何使用Python和正则表达式提取HTML中的img标签的src属性。通过五个简单的步骤，我们成功实现了这一功能。正则表达式在处理文本时非常强大且灵活，但也需要谨慎使用，尤其是在处理不规则或复杂的HTML结构时，你可能需要更复杂的逻辑或者使用库（如Beautiful Soup）等。

希望这篇文章对你有所帮助，期待你能在后续的学习和工作中取得更好的进展！如有任何问题，欢迎在评论区讨论。

上一篇：查看java 使用的是那个垃圾回收期

下一篇：java使用企业微信群机器人

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯