python正则匹配获取url主域名

原创

mob64ca12dc54c5 2024-02-23 07:16:34 ©著作权

文章标签 正则表达式代码示例 python 文章分类 Python 后端开发

©著作权归作者所有：来自51CTO博客作者mob64ca12dc54c5的原创作品，请联系作者获取转载授权，否则将追究法律责任

如何使用Python正则匹配获取URL主域名

1.整体流程

首先让我们来看一下整个过程的流程，这样小白开发者就可以清晰地了解该如何实现获取URL主域名的功能。

stateDiagram
    开始 --> 正则匹配URL --> 获取主域名 --> 结束

2.步骤及代码示例

步骤1：正则匹配URL

在这一步中，我们需要使用正则表达式来匹配URL。具体的代码如下：

import re

# 匹配URL的正则表达式
url_pattern = r'http[s]?://(?:[a-zA-Z]|[0-9]|[$-_@.&+]|[!*\\(\\),]|(?:%[0-9a-fA-F][0-9a-fA-F]))+'

# 从文本中匹配URL
url = re.findall(url_pattern, text)

步骤2：获取主域名

一旦我们成功匹配到URL，接下来就需要从URL中提取主域名。代码示例如下：

from urllib.parse import urlparse

# 从URL中提取主域名
def get_domain(url):
    parsed_url = urlparse(url)
    domain = parsed_url.netloc
    return domain

3.整体代码

综合以上两个步骤，我们可以得到完整的Python代码如下：

import re
from urllib.parse import urlparse

def extract_domain(text):
    # 匹配URL的正则表达式
    url_pattern = r'http[s]?://(?:[a-zA-Z]|[0-9]|[$-_@.&+]|[!*\\(\\),]|(?:%[0-9a-fA-F][0-9a-fA-F]))+'
    
    # 从文本中匹配URL
    urls = re.findall(url_pattern, text)
    
    domains = []
    for url in urls:
        parsed_url = urlparse(url)
        domain = parsed_url.netloc
        domains.append(domain)
    
    return domains