一、零宽断言

此篇文章为python正则表达式的高阶入门,正则基础入门请参考程序员入门基础:python的正则表达式。


断言也可以理解为判断的意思,正则表达式中有很多这样的断言,常见的如 ^ 和 /A,匹配字符串或者行的末尾 $ 和 /Z,单词边界/B等等。

零宽断言是并不去真正的匹配字符串文本,而仅仅是匹配对应的位置,断言本身并不匹配,因为匹配的宽度为零,故零宽。当然零宽断言还有各种叫法,如环视、预搜索等。

常见的零宽断言有四种形式,即正向肯定,正向否定,负向肯定,负向否定。


二、正向肯定

格式:(?=exp),正向(向右)匹配位置,但不计入结果

import re
#(?=dog)位置开始匹配,但不计入匹配结果
print("匹配开始位置dog:",re.search(r'(?=dog)dogeat',"dogeat@homework"))
#dog(?=eat)位置开始匹配,但(?=eat)不计入匹配结果
print("匹配开始位置eat:",re.search(r'dog(?=eat)eat',"dogeat@homework"))
#注意dog(?=homework)实际等于doghomework与原字符串不同,不可匹配
print("匹配开始位置homework:",re.search(r'dog(?=homework)@homework',"dogeat@homework"))

开始位置dog:

开始位置eat:

开始位置homework: None

三、正向否定

格式:(?!exp),正向(向右)否定匹配位置,但不计入结果

import re#
#@homework位置开始匹配,无aa,匹配成功
print("(?!aa)@homework:",re.search(r'(?!eat)@homework',"dogeat@homework"))
#dog位置开始匹配,后续无cat,匹配成功
print("dog(?!cat)eat:",re.search(r'dog(?!cat)eat',"dogeat@homework"))
#dog位置开始匹配,后续无eat,匹配失败
print("dog(?!eat)@homework:",re.search(r'dog(?!eat)eat@homework',"dogeat@homework"))
(?!aa)@homework: 
dog(?!cat)eat: 
dog(?!eat)@homework: None

四、负向肯定

格式:(?<=exp),负向(向左)匹配位置,但不计入结果。

特别注意,如遇负向零宽断言(包括负向肯定与否定),正则验证的顺序为,先跳过断言后,再从右向左验证,即负向验证。

import re##
#@homework位置开始向左匹配,匹配成功
print("(?<=eat)@homework:",re.search(r'(?<=eat)@homework',"dogeat@homework"))
#eat位置开始向左匹配,匹配成功
print("dog(?<=dog)eat:",re.search(r'dog(?<=dog)eat',"dogeat@homework"))
#eat@homework位置开始匹配,左侧无eat,匹配失败,应该为dog
print("dog(?<=eat)eat@homework:",re.search(r'dog(?<=eat)eat@homework',"dogeat@homework"))
(?<=eat)@homework: 
dog(?<=dog)eat: 
dog(?<=eat)eat@homework: None

五、负向否定

格式:(?

import re###
#@homework位置开始向左匹配,匹配失败
print("(?
#eat位置开始向左匹配,匹配失败
print("dog(?
#eat@homework位置开始匹配,左侧无eat,匹配成功,失败时为dog
print("dog(?
(?
dog(?
dog(?

六、总结

学习正则表达式,有些琐碎,一定要多练习,有些东西记住后过一段时间就忘了,很正常。就像把这些知识存储在硬盘里,只要能做到快速调入内存(大脑)即可。