python 链接正则url

原创

mob649e8160f07c 2023-08-01 18:31:34 ©著作权

文章标签 正则表达式 Python python 文章分类 Python 后端开发

©著作权归作者所有：来自51CTO博客作者mob649e8160f07c的原创作品，请联系作者获取转载授权，否则将追究法律责任

Python链接正则URL

在开发网络爬虫或者处理网络数据时，我们经常需要从一段文本中提取出其中的URL链接。这时候，正则表达式是一个非常有用的工具。本文将介绍如何使用Python和正则表达式来链接URL，并给出相应的代码示例。

正则表达式

正则表达式是一种描述字符模式的方法，它可以用来匹配和处理字符串。在Python中，我们可以使用re模块来操作正则表达式。下面是一些常用的正则表达式符号和语法：

.：匹配任意字符，除了换行符。
*：匹配前一个字符的零个或多个重复。
+：匹配前一个字符的一个或多个重复。
?：匹配前一个字符的零个或一个重复。
[]：匹配方括号中的任意一个字符。
()：分组，可以用来提取匹配的内容。
\d：匹配任意一个数字。
\w：匹配任意一个字母或数字。

更多的正则表达式语法可以参考Python官方文档：[

提取URL链接

现在我们来看一个例子，假设我们有一个包含了一些URL链接的文本，我们想要从中提取出这些链接。

import re

text = "这是一段包含URL链接的文本。其中有一个链接是

pattern = r'https?://[^\s<>"]+|www\.[^\s<>"]+'
urls = re.findall(pattern, text)

for url in urls:
    print(url)

在上面的例子中，我们使用了正则表达式https?://[^\s<>"]+|www\.[^\s<>"]+来匹配URL链接。这个正则表达式可以匹配以http://或者https://开头的URL链接，也可以匹配以www.开头的URL链接。我们使用re.findall()函数找到所有匹配的内容，并将其打印出来。

输出结果为：

链接URL

除了提取URL链接，我们还可以使用Python来链接URL。Python的urllib模块提供了一些方法来处理URL。下面是一个简单的例子：

from urllib.parse import urljoin

base_url = "
relative_url = "/about"
absolute_url = "

print(urljoin(base_url, relative_url))
print(urljoin(base_url, absolute_url))

在上面的例子中，我们使用了urljoin()函数来链接URL。如果提供的URL是相对路径，则会根据基础URL生成一个绝对路径。如果提供的URL是绝对路径，则会直接返回该URL。

输出结果为：