本文主要介绍了python中如何使用正则表达式提取数据问题。具有很好的参考价值,希望对大家有所帮助。如有错误或未考虑完全的地方,望不吝赐教
正则表达式是一个特殊的字符序列,它能帮助你方便的检查一个字符串是否与某种模式匹配。
re 模块使 Python 语言拥有全部的正则表达式功能。
compile 函数可创建一个模式字符串和可选的标志参数组成的一个正则表达式对象。该对象拥有一系列方法用于正则表达式匹配和替换。
re 模块也提供了与这些方法功能完全一致的函数,这些函数使用一个模式字符串做为它们的第一个参数。
模式 | 描述 |
^ | 匹配字符串的开头 |
$ | 匹配字符串的末尾。 |
. | 匹配任意字符,除了换行符,当re.DOTALL标记被指定时,则可以匹配包括换行符的任意字符。 |
[...] | 用来表示一组字符,单独列出:[amk] 匹配 'a','m'或'k' |
[^...] | 不在[]中的字符:[^abc] 匹配除了a,b,c之外的字符。 |
re* | *匹配0次或多次。贪婪方式,re代表正则表达式 |
re+ | +匹配1次或多次。 |
re? | ?匹配0次或1次,非贪婪方式,匹配0次指表达式后面为空的也匹配 |
re{ n} | 连续匹配 n 个前面表达式。例如, o{2},连续匹配两次o, 不能匹配 "Bob" 中的 "o",但是能匹配 "food" 中的两个 o。 |
re{ n,} | 匹配 n 个前面表达式。例如, o{2,} 不能匹配"Bob"中的"o",但能匹配 "foooood"中的所有 o。"o{1,}" 等价于 "o+"。"o{0,}" 则等价于 "o*"。 |
re{ n, m} | 表示匹配 连续的 前面的表达式 至少n次,至多 m 次。表达式 油{3,4} 就表示匹配 连续的 油 字 至少3次,至多 4 次 |
a| b | 匹配a或b |
(re) | 对正则表达式分组并记住匹配的文本 |
常用正则表达式实例
字符匹配
实例 | 描述 |
python | 匹配 "python". |
字符类
实例 | 描述 |
[Pp]ython | 匹配 "Python" 或 "python" |
rub[ye] | 匹配 "ruby" 或 "rube" |
[aeiou] | 匹配中括号内的任意一个字母 |
[0-9] | 匹配任何数字。类似于 [0123456789] |
[a-z] | 匹配任何小写字母 |
[A-Z] | 匹配任何大写字母 |
[a-zA-Z0-9] | 匹配任何字母及数字 |
[^aeiou] | 除了aeiou字母以外的所有字符 |
[^0-9] | 匹配除了数字外的字符 |
特殊字符类
实例 | 描述 |
. | 匹配除 "\n" 之外的任何单个字符。要匹配包括 '\n' 在内的任何字符,请使用象 '[.\n]' 的模式。 |
\d | 匹配一个数字字符。等价于 [0-9]。 |
\D | 匹配一个非数字字符。等价于 [^0-9]。 |
\s | 匹配任何空白字符,包括空格、制表符、换页符等等。等价于 [ \f\n\r\t\v]。 |
\S | 匹配任何非空白字符。等价于 [^ \f\n\r\t\v]。 |
\w | 匹配包括下划线的任何单词字符。等价于'[A-Za-z0-9_]'。 |
\W | 匹配任何非单词字符。等价于 '[^A-Za-z0-9_]'。 |
re.match只匹配字符串的开始,如果字符串开始不符合正则表达式,则匹配失败,函数返回None;而re.search匹配整个字符串,直到找到第一个匹配。
# re.match()函数只能从起始的位置匹配,否则返回None
import re
matchObj = re.match('www', 'www.runoob.com')
print(re.match('www', 'www.runoob.com').span()) # 在起始位置匹配
print(re.match('com', 'www.runoob.com')) # 不在起始位置匹配
# (0, 3)
# None
# 使用group(num) 或 groups() 函数来获取用来匹配的正在表达式提取的值。
if matchObj:
print("matchObj.group() : ", matchObj.group())
# 执行结果是matchObj.group() : www
# matchObj.group() 等同于 matchObj.group(0),表示匹配到的完整文本字符
# print ("matchObj.group(1) : ", matchObj.group(1))
# print ("matchObj.group(2) : ", matchObj.group(2))
# re.search 扫描整个字符串并返回第一个成功的匹配。
import re
line = "Cats are smarter than dogs";
searchObj = re.search(r'(.*) are (.*?) ', line, re.M | re.I)
if searchObj:
print("searchObj.group() : ", searchObj.group())
print("searchObj.group(1) : ", searchObj.group(1))
print("searchObj.group(2) : ", searchObj.group(2))
# 执行结果
# searchObj.group() : Cats are smarter
# searchObj.group(1) : Cats
# searchObj.group(2) : smarter
# re.sub()用于替换字符串中的匹配项
import re
phone = "2004-959-559 # 这是一个国外电话号码"
# 删除字符串中的 Python注释,$匹配字符串的末尾。
# 把匹配到的字符串替换为空字符串
num = re.sub(r'#.*$', "", phone)
print("电话号码是: ", num)
# 电话号码是: 2004-959-559
# 删除非数字(-)的字符串,\D 匹配任意非数字
num = re.sub(r'\D', "", phone)
print("电话号码是 : ", num)
# 电话号码是 : 2004959559
"""
findall在字符串中找到正则表达式所匹配的所有子串,并返回一个列表,如果没有找到匹配的,则返回空列表。
注意: match 和 search 是匹配一次 findall 匹配所有。
"""
import re
pattern = re.compile(r'\d+') # 创建个正着表达式对象,查找数字
result1 = pattern.findall('runoob 123 google 456')
result2 = pattern.findall('run88oob123google456', 0, 10)
result3 = pattern.search('runoob 123 google 456')
# 123 只匹配了一次,匹配首个符合要求的字符串
print(result1)
print(result2)
print(result3.group())
# 执行结果:
# ['123', '456']
# ['88', '12']
# 123
re.compile 函数
compile 函数用于编译正则表达式,生成一个正则表达式( Pattern )对象,供 match() 和 search() 这两个函数使用。
语法格式为:
import re
pattern = re.compile(r'\d+') # 用于匹配至少一个数字
m = pattern.match('one12twothree34four') # 查找头部,没有匹配
print(m)
# None
m = pattern.match('one12twothree34four', 2, 10) # 从'e'的位置开始匹配,没有匹配
print(m)
# None
m = pattern.match('one12twothree34four', 3, 10) # 从'1'的位置开始匹配,正好匹配
print(m) # 返回一个 Match 对象
# <re.Match object; span=(3, 5), match='12'>
print(m.group(0)) # 可省略 0,获得整个匹配的子串时,可直接使用 group() 或 group(0);
# '12'
print(m.start(0)) # 可省略 0,获取分组匹配的子串在整个字符串中的起始位置(子串第一个字符的索引),参数默认值为 0;
# 3
print(m.end(0)) # 可省略 0,获取分组匹配的子串在整个字符串中的结束位置(子串最后一个字符的索引+1),参数默认值为 0;
5
print(m.span(0)) # 可省略 0,返回 (start(group), end(group))。
# (3, 5)
执行结果:
None
None
<re.Match object; span=(3, 5), match='12'>
12
3
5
(3, 5)
括号()-分组
括号称之为 正则表达式的 组选择。
组 就是把 正则表达式 匹配的内容 里面 其中的某些部分 标记为某个组。
我们可以在 正则表达式中 标记 多个 组