python 网址正则匹配

原创

mob64ca12d78ba3 2023-09-15 12:08:42 ©著作权

文章标签 正则表达式 python re模块 文章分类 Python 后端开发

©著作权归作者所有：来自51CTO博客作者mob64ca12d78ba3的原创作品，请联系作者获取转载授权，否则将追究法律责任

Python 网址正则匹配

概述

在网络爬虫、数据抓取等任务中，经常需要从网页中提取出其中的网址。而网址的格式千差万别，使用正则表达式是一种有效的方法。本文将介绍如何使用Python中的正则表达式来匹配网址，并提供一些常用的正则表达式示例。

网址的常见格式

网址的格式可以分为以下几种：

http和https协议的网址：例如`
不包含协议的网址：例如www.example.com
只包含域名和顶级域名的网址：例如example.com
带有路径的网址：例如`
带有查询参数的网址：例如`
带有锚点的网址：例如`

使用Python的re模块进行网址匹配

Python提供了re模块来支持正则表达式操作。以下是使用re模块进行网址匹配的基本步骤：

导入re模块：在使用re模块之前，需要先导入它。

import re

定义网址匹配的正则表达式：根据需要匹配的网址格式，定义相应的正则表达式。
使用re模块的函数进行匹配：可以使用re模块的search、match、findall等函数来进行匹配。

下面是一个简单的示例，演示如何使用正则表达式来匹配以https://开头的网址：

import re

pattern = r"https://\w+\.\w+"
text = "网址1： 网址2：

result = re.search(pattern, text)

if result:
    print("匹配到的网址：", result.group(0))
else:
    print("未匹配到网址")

运行上述代码将输出结果为：`匹配到的网址：

常用的网址匹配正则表达式示例

下面是一些常用的网址匹配正则表达式示例：

匹配所有的网址（包括http和https协议的）：

pattern = r"http[s]?://(?:[a-zA-Z]|[0-9]|[$-_@.&+]|[!*\\(\\),]|(?:%[0-9a-fA-F][0-9a-fA-F]))+"

匹配不包含协议的网址（以www开头的）：

pattern = r"www\.[a-zA-Z0-9]+(\.[a-zA-Z]+)+"

匹配只包含域名和顶级域名的网址：

pattern = r"[a-zA-Z0-9]+\.(?:com|cn|net|org|gov|edu|int|mil|arpa|biz|info|pro|name|museum|coop|aero|[a-zA-Z]{2})"

匹配带有路径的网址：

pattern = r"http[s]?://(?:[a-zA-Z]|[0-9]|[$-_@.&+]|[!*\\(\\),]|(?:%[0-9a-fA-F][0-9a-fA-F]))+(?:/[a-zA-Z0-9]+)*"

匹配带有查询参数的网址：

pattern = r"http[s]?://(?:[a-zA-Z]|[0-9]|[$-_@.&+]|[!*\\(\\),]|(?:%[0-9a-fA-F][0-9a-fA-F]))+(?:/[a-zA-Z0-9]+)*\?(?:[a-zA-Z0-9]+=[a-zA-Z0-9]+&?)*"

匹配带有锚点的网址：

pattern = r"http[s]?://(?:[a-zA-Z]|[0-9]|[$-_@.&+]|[!*\\(\\),]|(?:%[0-9a-fA-F][0-9a-fA-F]))+(?:/[a-zA-Z0-9]+)*#(?:[a-zA-Z0-9]+)*"

上一篇：mysql like多个字段

下一篇：java实现角色管理

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯