为了抽取或获得信息,我们给出抽取操作应遵守的一些规则。这些规则由一些特殊字符或进行模式匹配操作时使用的元字符组成。也可以使用规则字符作为模式中的一部分进行搜寻。例如,A将查询A,x将查找字母x。

以字符出现情况进行匹配的表达式,原因是一些系统将这类模式划分为一组形成基本元字符的集合。


正则表达式默认区分大小写的,可以通过一个Flag来控制是否区分大小写。

字符类: 是一组在方括号内的字符,可以匹配其中的任何一个字符。

在字符类之外段横线没有任何意义,字符内中的^表示非


转义字符类: 

\d == [0-9]

\w == [0-9A-Za-z]

\s 匹配一个空字符(空格,制表符,回车,换行)

\D与上面小写含义相反

\W与上面小写含义相反

\S与上面小写含义相反





基本元字符集及其含义

^ 只匹配行首

$ 只匹配行尾

* 一个单字符后紧跟*,匹配0个或多个此单字符

[ ] 匹配[ ]内字符。可以是一个单字符,也可以是字符序列。可以使用-表示[ ]内字符序列范围,如用[ 1 - 5 ]代替[ 1 2 3 4 5 ]

\ 用来屏蔽一个元字符的特殊含义。因为有时在s h e l l中一些元字符有特殊含义。\可以使其失去应有意义

. 匹配任意单字符

? 匹配一个或零个字符

{} 匹配重复字符

pattern{n} 用来匹配前面p a t t e r n出现次数。n为次数

pattern{n, } 含义同上,但次数最少为n

pattern{n, m} 含义同上,但p a t t e r n出现次数在n与m之间