python 文本正则截取

原创

mob64ca12ee2ba5 2023-08-28 03:12:55 ©著作权

文章标签 Python 正则表达式 python 文章分类 Python 后端开发

©著作权归作者所有：来自51CTO博客作者mob64ca12ee2ba5的原创作品，请联系作者获取转载授权，否则将追究法律责任

Python文本正则截取

引言

在日常的数据处理和文本分析中，常常需要从大量的文本中提取特定的信息，如截取URL、提取邮箱地址、抽取日期等。这时，使用Python中的正则表达式是一种高效且灵活的方法。

本文将初步介绍Python文本正则截取的基本概念和用法，并提供一些代码示例，帮助读者快速上手。

正则表达式简介

正则表达式是一种用于匹配和查找文本中模式的字符串。它由一系列的字符和特殊字符组成，用于描述要匹配的文本的规则。

在Python中，我们可以通过re模块来使用正则表达式。首先，我们需要导入该模块：

import re

常用的正则表达式符号

在使用正则表达式进行文本截取时，经常会用到一些特殊字符和符号。下面是一些常用的符号及其含义：

.：匹配任意单个字符，除了换行符。
*：匹配前面的表达式零次或多次。
+：匹配前面的表达式一次或多次。
?：匹配前面的表达式零次或一次。
^：匹配文本的开头。
$：匹配文本的结尾。
[]：匹配括号内的任意一个字符。
()：分组，用于提取匹配结果。
|：或，匹配多个表达式中的任意一个。

文本截取示例

示例1：截取URL

假设我们有一个包含多个URL的字符串，现在我们想要从中提取所有的URL。

首先，我们使用re.findall()函数来查找所有匹配的URL，并存储到一个列表中：

import re

text = "Visit my website at  and check out my blog at 

urls = re.findall(r"http[s]?://(?:[a-zA-Z]|[0-9]|[$-_@.&+]|[!*\\(\\),]|(?:%[0-9a-fA-F][0-9a-fA-F]))+", text)
print(urls)

输出结果为：

[' '

示例2：提取邮箱地址

现在，假设我们有一个文本文件，其中包含多个人的联系信息，我们想要提取其中的邮箱地址。

我们可以使用正则表达式来匹配常见的邮箱地址格式：

import re

text = "Please contact me at john@example.com or send an email to info@example.com."

emails = re.findall(r"\b[A-Za-z0-9._%+-]+@[A-Za-z0-9.-]+\.[A-Z|a-z]{2,}\b", text)
print(emails)

输出结果为：

['john@example.com', 'info@example.com']

示例3：抽取日期

最后一个示例是从一段文本中提取日期。

假设我们有一个包含多个句子的字符串，每个句子都包含日期。我们可以使用正则表达式来匹配日期的常见格式：

import re

text = "I was born on April 20, 1990. Today is December 31, 2022."

dates = re.findall(r"(?:January|February|March|April|May|June|July|August|September|October|November|December)\s\d{1,2},\s\d{4}", text)
print(dates)

输出结果为：

['April 20, 1990', 'December 31, 2022']

序列图

下面是一个使用Python进行文本正则截取的简单序列图：

sequenceDiagram
    participant User
    participant Python
    User->>Python: 导入re模块
    User->>Python: 提供待处理的文本
    User->>Python: 定义正则表达式
    User->>Python: 调用re.findall()函数
    Python->>User: 返回匹配结果