python中beta怎么表示 python\b怎么用

转载

技术极客 2024-06-15 09:20:14

文章标签 python中beta怎么表示正则表达式 python python3 python正则 文章分类 Python 后端开发

更多强大的功能

到目前为止，我们只是介绍了正则表达式的一部分功能。在这一篇中，我们会学习到一些新的元字符，然后再教大家如何使用组来获得被匹配的部分文本。

更多元字符

还有一些元字符我们没有讲到，接下来小甲鱼一一为大家讲解。

有些元字符它们不匹配任何字符，只是简单地表示成功或失败，因此这些字符也称之为零宽断言。例如 \b 表示当前位置位于一个单词的边界，但 \b 并不能改变位置。因此，零宽断言不应该被重复使用，因为 \b 并不会修改当前位置，所以 \b\b 跟 \b 是没什么两样的。

小甲鱼解释：很多人可能不理解“改变位置”和“零宽断言”的意思？我尝试解释下，比如 abc 匹配完 a 之后，咱的当前位置就会移动，才能继续匹配 b，依次类推...但是 \babc 的话，\b

|

或操作符，对两个正则表达式进行或操作。如果 A 和 B 是正则表达式， A | B 会匹配 A 或 B 中出现的任何字符。为了能够更加合理的工作， | 的优先级非常低。例如 Fish|C 应该匹配 Fish 或 C ，而不是匹配 Fis ，然后一个 'h' 或 'C' 。

同样，我们使用 \| 来匹配 '|' 字符本身；或者包含在一个字符类中，像这样 [|] 。

^

匹配字符串的起始位置。如果设置了 MULTILINE 标志，就会变成匹配每一行的起始位置。在 MULTILINE 中，每当遇到换行符就会立刻进行匹配。

举个例子，如果你只希望匹配位于字符串开头的单词 From，那么你的正则表达式可以写为 ^From：

1.  >>> print(re.search('^From', 'From Here to Eternity'))  
2.  <_sre.SRE_Match object; span=(0, 4), match='From'>
3.  >>> print(re.search('^From', 'Reciting From Memory'))
4.  None

复制代码

匹配字符串的结束位置，每当遇到换行符也会离开进行匹配。

>>> print(re.search('}$', '{block}'))   

<_sre.SRE_Match object; span=(6, 7), match='}'> 

>>> print(re.search('}$', '{block} ')) 

None 

>>> print(re.search('}$', '{block}\n'))   

<_sre.SRE_Match object; span=(6, 7), match='}'>

同样，我们使用

\$ 来匹配 '$' 字符本身；或者包含在一个字符类中，像这样 [$] 。

只匹配字符串的起始位置。如果没有设置 MULTILINE 标志的时候，

\A 和 ^ 的功能是一样的；但如果设置了 MULTILINE 标志，则会有一些不同： \A 还是匹配字符串的起始位置，但 ^ 会对字符串中的每一行都进行匹配。

只匹配字符串的结束位置。

单词边界，这是一个只匹配单词的开始和结尾的零宽断言。“单词”定义为一个字母数字的序列，所以单词的结束指的是空格或者非字母数字的字符。

下边例子中，

class 
 只有在出现一个完整的单词  
class 
 时才匹配；如果出现在别的单词中，并不会匹配。 
1.  >>> p = re.compile(r'\bclass\b')
2.  >>> print(p.search('no class at all'))  
3.  <_sre.SRE_Match object; span=(3, 8), match='class'>
4.  >>> print(p.search('the declassified algorithm'))
5.  None
6.  >>> print(p.search('one subclass is'))
7.  None

复制代码

在使用这些特殊的序列的时候，有两点是需要注意的：第一点需要注意的是，Python 的字符串跟正则表达式在有些字符上是有冲突的（回忆之前反斜杠的例子）。比如说在 Python 中，

\b 表示的是退格符（ASCII 码值是 8）。所以，你如果不使用原始字符串，Python 会将 \b 转换成退格符处理，这样就肯定跟你的预期不一样了。

下边的例子中，我们故意不写表示原始字符串的

'r' ，结果确实大相庭径：

1.  >>> p = re.compile('\bclass\b')
2.  >>> print(p.search('no class at all'))
3.  None
4.  >>> print(p.search('\b' + 'class' + '\b'))  
5.  <_sre.SRE_Match object; span=(0, 7), match='\x08class\x08'>

复制代码

第二点需要注意的是，在字符类中不能使用这个断言。跟 Python 一样，在字符类中，

\b 只是用来表示退格符。

另一个零宽断言，与

\b 的含义相反， \B 表示非单词边界的位置。

分组

通常在实际的应用过程中，我们除了需要知道一个正则表达式是否匹配之外，还需要更多的信息。对于比较复杂的内容，正则表达式通常使用分组的方式分别对不同内容进行匹配。

下边的例子，我们将 RFC-822 头用“:”号分成名字和值分别匹配：

1.  From: author@example.com
2.  User-Agent: Thunderbird 1.5.0.9 (X11/20061227)
3.  MIME-Version: 1.0
4.  To: editor@example.com

复制代码

像这种情况，我们就可以写一个正则表达式先来匹配一整个 RFC-822 头，然后利用分组功能，使用一个组来匹配头的名字，另一个组匹配名字对应的值。

小甲鱼解释：RFC-822 是电子邮件的标准格式，当然看到这里你还不知道分组要怎么分，不急，请接着往下看......

在正则表达式中，使用元字符

( ) 来划分组。 ( ) 元字符跟数学表达式中的小括号含义差不多；它们将包含在内部的表达式组合在一起，所以你可以对一个组的内容使用重复操作的元字符，例如 * ， + ， ? 或者 {m, n} 。

例如，

(ab)* 会匹配零个或者多个 ab ：

1.  >>> p = re.compile('(ab)*')
2.  >>> print(p.match('ababababab').span())
3.  (0, 10)

复制代码

使用

( ) 表示的子组我们还可以对它进行按层次索引，可以将索引值作为参数传递给这些方法：group()，start()，end() 和 span()。序号 0 表示第一个分组（这个是默认分组，一直存在的，所以不传入参数相当于默认值 0）：

1.  >>> p = re.compile('(a)b')
2.  >>> m = p.match('ab')
3.  >>> m.group()
4.  'ab'
5.  >>> m.group(0)
6.  'ab'

复制代码

小甲鱼解释：有几对小括号就是分成了几个子组，例如 (a)(b) 和 (a(b))

子组的索引值是从左到右进行编号，子组也允许嵌套，因此我们可以通过从左往右来统计左括号

( 来确定子组的序号。

1.  >>> p = re.compile('(a(b)c)d')
2.  >>> m = p.match('abcd')
3.  >>> m.group(0)
4.  'abcd'
5.  >>> m.group(1)
6.  'abc'
7.  >>> m.group(2)
8.  'b'

复制代码

group() 方法可以一次传入多个子组的序号：

1.  >>> m.group(2,1,2)
2.  ('b', 'abc', 'b')

复制代码

小甲鱼解释：start() 是获得参数子组的开始位置；end() 是获得对应子组的结束位置；span() 是获得对应子组的范围。

我们还特么可以通过 groups() 方法一次性返回所有的子组匹配的字符串：

1.  >>> m.groups()
2.  ('abc', 'b')

复制代码

还有一个反向引用的概念需要介绍。反向引用指的是你可以在后面的位置使用先前匹配过的内容，用法是反斜杠加上数字。例如 \1 表示引用前边成功匹配的序号为 1 的子组。

1.  >>> p = re.compile(r'(\b\w+)\s+\1')
2.  >>> p.search('Paris in the the spring').group()
3.  'the the'

复制代码

如果只是搜索字符串，反向引用不会被用到，因为很少有文本格式会这样来重复字符。但是，你很快会发现，在字符串替换的时候，反向引用是非常有用的（深井冰）！

小甲鱼注释：注意，在 Python 的字符串中会使用反斜杠加数字的方式来表示数字的值对应的 ASCII 字符，所以在使用反向索引的正则表达式中，我们依然强调要使用原始字符串。

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

上一篇：Java中浏览器请求接口当前显示的是预配标头什么意思 web前端接口请求

下一篇：python behave context自定义 python 自定义参数

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯

python中beta怎么表示 python\b怎么用

python中beta怎么表示 python\b怎么用

51CTO博客