python 中使用正则表达式需要引入re模块,用来匹配处理字符串
如:
import re #第一步,要引入re模块
a = re.findall("匹配规则", "要匹配的字符串") #第二步,调用模块函数
以列表形式返回匹配到的字符串
1、普通字符和11个元字符:
普通字符匹配自身abcabc.匹配任意除换行符"\n"外的字符(在DOTALL模式中也能匹配换行符a.cabc
\转义字符,使后一个字符改变原来的意思a\.c;a\\ca.c;a\c
*匹配前一个字符0或多次abc*ab;abccc
+匹配前一个字符1次或无限次abc+abc;abccc
?匹配一个字符0次或1次abc?ab;abc
^匹配字符串开头。在多行模式中匹配每一行的开头^abcabc
$匹配字符串末尾,在多行模式中匹配每一行的末尾abc$abc
|或。匹配|左右表达式任意一个,从左到右匹配,如果|没有包括在()中,则它的范围是整个正则表达式abc|defabc
def
{}{m}匹配前一个字符m次,{m,n}匹配前一个字符m至n次,若省略n,则匹配m至无限次ab{1,2}cabc
abbc
[]字符集。对应的位置可以是字符集中任意字符。字符集中的字符可以逐个列出,也可以给出范围,如[abc]或[a-c]。[^abc]表示取反,即非abc。所有特殊字符在字符集中都失去其原有的特殊含义。用\反斜杠转义恢复特殊字符的特殊含义。a[bcd]eabe
ace
ade
()被括起来的表达式将作为分组,从表达式左边开始没遇到一个分组的左括号“(”,编号+1.分组表达式作为一个整体,可以后接数量词。表达式中的|仅在该组中有效。(abc){2}a(123|456)cabcabc
a456c
2、预定义字符集(可以写在字符集[...]中)
\d数字:[0-9]a\bca1c\D非数字:[^\d]a\Dcabc
\s匹配任何空白字符:[<空格>\t\r\n\f\v]a\sca c
\S非空白字符:[^\s]a\Scabc
\w匹配包括下划线在内的任何字字符:[A-Za-z0-9_]a\wcabc
\W匹配非字母字符,即匹配特殊字符a\Wca c
\A仅匹配字符串开头,同^\Aabcabc
\Z仅匹配字符串结尾,同$abc\Zabc
\b匹配\w和\W之间,即匹配单词边界匹配一个单词边界,也就是指单词和空格间的位置。例如, 'er\b' 可以匹配"never" 中的 'er',但不能匹配 "verb" 中的 'er'。\babc\ba\b!bc空格abc空格a!bc
\B[^\b]a\Bbcabc
模块函数:
1、compile()编译正则表达式字符串,返回一个对象。该对象可以直接以  .  的方式访问模块函数
格式:
re.compile(pattern,flags=0)pattern: 编译时用的表达式字符串。
flags 编译标志位,用于修改正则表达式的匹配方式,如:是否区分大小写,多行匹配等。
2、match()
从字符串头部开始匹配。//注:这个方法并不是完全匹配。当pattern结束时若string还有剩余字符,仍然视为成功。想要完全匹配,可以在表达式末尾加上边界匹配符'$'
格式:
re.match(pattern, string, flags=0)
3、search()
格式:
re.search(pattern, string, flags=0)
re.search函数会在字符串内查找模式匹配,只要找到第一个匹配然后返回,如果字符串没有匹配,则返回None。
4、findall()
re.findall遍历匹配,获取字符串中所有匹配的子串,返回一个列表。
格式:
re.findall(pattern, string, flags=0)