问题
首先看一个问题:
import re
text = r"\学"
print(text)
zz = r"\学"
result = re.findall(zz,text)
print(result)
输出:
\学
['学']
为什么没有匹配到反斜杠?
分析
转义:
首先要理解一个概念,python中内置的语法字符窜中有一些特殊的符号,那就是\
,被成为转义字符。其中\
可以与很多字符结合形成一些特殊符号,例如 \n
表示回车。
原始字符串:
print(r"\n")
print("\n")
输出:
\n
在字符串前面加r
即可将字符串解析为原始字符串,即所见即所得,\
不再具有特殊含义。
回到之前的问题
import re
text = r"\学"
print(text)
zz = r"\学"
result = re.findall(zz,text)
print(result)
为什么匹配不到\
,明明都是原始字符串,这里要就是正则的问题了
符号 | 意义 |
\w | 匹配字母数字及下划线 |
\W | 匹配非字母数字及下划线 |
\s | 匹配任意空白字符,等价于 [ \t\n\r\f]。 |
\S | 匹配任意非空字符 |
\d | 匹配任意数字,等价于 [0-9]. |
\D | 匹配任意非数字 |
\A | 匹配字符串开始 |
因为 在正则中 \
也是特殊符号。
所以要真正的匹配\
这个字符,正则匹配应该这样写r"\\"
,带入题目中就是zz = r"\\学"
而如果不使用原始字符串应该这样写:
import re
text = r"\学"
print(text)
zz = "\\\\学"
result = re.findall(zz,text)
print(result)
输出:
\学
['\\学']ve
已经匹配出来了,简单解释一下"\\\\学"
首先根据python内置的字符串解析,解析成实际的字符串表示的就是\\学
(也就是原始字符串),再由于正则语法解析就能解析出真正要匹配的字符串是\学
。
其实导致二次转义的这个问题的原因:
\
在python中字符串中是特殊符号,并且在正则中也是特殊符号,所以才需要转义两次
其他的问题
通过上面这个问题可以看到匹配出的内容是 \\学'
,也就是匹配出显示的内容不是以原始字符串的形式显示的,而print()
输出的内容是字符都是转义后的(转义字符生效),例如print('\n')
输出的是真的换行 而不是 \n
,而正则匹配出的内容更像是代码格式的字符串。