Python正则表达式

原创

鹿角先生 2023-09-05 16:27:36 ©著作权

文章标签 正则表达式字符串 HTML 文章分类 软件研发

©著作权归作者所有：来自51CTO博客作者鹿角先生的原创作品，请联系作者获取转载授权，否则将追究法律责任

正则表达式，也称为regex，是一种用于匹配、搜索和替换文本模式的强大工具。在Python中，我们使用re模块来使用正则表达式。通过正则表达式，我们可以灵活地操作文本，实现各种复杂的需求。

基础知识

模式匹配：最基本的正则表达式是模式匹配，它允许我们搜索特定的字符串。例如，'a'将匹配任何包含'a'的字符串。
字符集：使用方括号括起来的字符集，匹配其中任何单个字符。例如，[abc]将匹配'a'、'b'或'c'。
量词：用于指定前面正则表达式的重复次数。常用的量词有*（0次或多次）、+（1次或多次）、?（0次或1次）、{n}（恰好n次）、{n,}（至少n次）、{n,m}（至少n次，但不超过m次）。
选择器：使用管道符(|)表示选择多个模式。例如，'a|b'将匹配包含'a'或'b'的字符串。
转义字符：\可以转义特殊字符，例如'\d'表示匹配任何数字。
原子：特殊字符前面的反斜杠()表示将其视为普通字符，而非正则表达式的一部分。
前后锚点：^和$分别表示行的开头和结尾，用于精确匹配整行或整个字符串。
括号：用括号包围的表达式将作为一个整体进行匹配，并且可以用于后跟限定符。
反查：使用\N可以反向查找字符串中上次匹配的内容。
反向查找：使用^和$分别表示行的开头和结尾，用于精确匹配整行或整个字符串。

案例分析

验证电子邮件地址格式：我们可以使用正则表达式来验证电子邮件地址的格式是否正确。以下是一个简单的例子：

import re  
  
email = "example@example.com"  
pattern = r"[^@]+@[^@]+\.[^@]+"  # 正则表达式，匹配邮箱格式  
if re.match(pattern, email):  
    print("Valid email address")  
else:  
    print("Invalid email address")

从HTML中提取链接：我们可以使用正则表达式来从HTML中提取链接。以下是一个简单的例子：

import re  
  
html = "<a href='https://example.com'>Link</a>"  
pattern = r"<a.*?href=(['\"])(.*?)\\1.*?>(.*?)</a>"  # 正则表达式，匹配HTML链接  
match = re.search(pattern, html)  
if match:  
    print(match.group(2))  # 输出链接地址

从CSV文件中提取数据：我们可以使用正则表达式来从CSV文件中提取特定数据。以下是一个简单的例子：

import re  
  
csv_data = "Name,Age,Email\nJohn Doe,25,john.doe@example.com"  
pattern = r"(?P<Name>[^,]+),(?P<Age>[^,]+),(?P<Email>[^,]+)"  # 正则表达式，匹配姓名、年龄、邮箱  
matches = re.findall(pattern, csv_data)  
for match in matches:  
    print(match)  # 输出每个匹配项的值