1.  引言

正则表达式(regular expression)描述了一种字符串匹配的模式,可以用来:

(1)检查一个串中是否含有符合某个规则的子串,并且可以得到这个子串;

(2)根据匹配规则对字符串进行灵活的替换操作。


2.  正则表达式规则


2.1.  普通字符

表达式  \r  可匹配 回车

表达式  \n  可匹配 换行符
表达式  \t   可匹配  制表符
表达式  \/  可匹配   "/" 本身

字母、数字、汉字、下划线、以及特殊定义的标 点符号,都是"普通字符"。表达式中的普通字符,在匹配一个字符 串的时候,匹配与之相同的一个字符。



举例 1:

表达式 "c",在匹配字符串 "abcde" 时,匹配结果是:成功;匹配到的内容是:"c";匹配到的位置是:开始于 2,结束于3。(注:下标从 0 开始还是从 1 开始,因当前编程语言的不同而可能不同)

举例 2:

表达式 "bcd",在匹配字符串 "abcde" 时,匹配结果是:成功;匹配到的内容是:"bcd";匹配到的位置是:开始于 1,结束于 4。


2.2.  简单的转义字符

一些不便书写的字符,采用在前面加 "\" 的方法。

有特殊用处的标点符号,在前面加

"\"后,就代表该符号本身。比如:^, $ 都有特殊意义,如果要想匹

配字符串中 "^" 和 "$" 字符,则表达式就需要写成 "\^" 和 "\$"。



举例 1:

表达式 "\$d",在匹配字符串 "abc$de" 时,匹配结果是:成功;匹配到的内容是:"$d";匹配到的位置是:开始于 3,结束于5。


2.3.  能够与 ' 多种字符'  匹配的表达式

正则表达式中的一些表示方法,可以匹配 '多种字符' 其中的任意一个字符。

比如,

表达式 "\d" 可以匹配 任意一个数字。虽然可以匹配其中任意字符,但是只能是一个,不是多个。

表达式 " \w " 可匹配 任意一个字母或数字或下划线,也就是A~Z,a~z,0~9,_ 中任意一个。

表达式 " \s  " 可匹配 包括空格、制表符、换页符等空白字符的其中任意一个。

表达式 " . "   一个小数点 可以匹配除了换行符(\n)以外的任意一个字符。


举例 1:

表达式 "\d\d",在匹配 "abc123" 时,匹配的结果是:成功;匹配到的内容是:"12";匹配到的位置是:开始于 3,结束于5。

举例 2:

表达式 "a.\d",在匹配 "aaa100" 时,匹配的结果是:成功;匹配到的内容是:"aa1";匹配到的位置是:开始于 1,结束于 4。


2.4.  自定义能够匹配 ' 多种字符'  的表达式

使用方括号 [ ] 包含一系列字符,能够匹配其中任意一个字符。用 [^ ]包含一系列字符,则能够匹配其中字符之外的任意一个字符。同样的道理,虽然可以匹配其中任意一个,但是只能是一个,不是多个。


表达式  [ab5@]  可匹配  "a" 或 "b" 或 "5" 或 "@"。

表达式  [^abc]   可匹配 "a","b","c" 之外的任意一个字符。

表达式   [f-k]   可匹配  "f"~"k"    之间的任意一个字母。

表达式  [^A-F0-3]  可匹配 


举例 1:

表达式 "[bcd][bcd]" 匹配 "abc123" 时,匹配的结果是:成功;匹配到的内容是:"bc";匹配到的位置是:开始于 1,结束于3。


举例 2:

表达式 "[^abc]" 匹配 "abc123" 时,匹配的结果是:成功;匹配到的内容是:"1";匹配到的位置是:开始于 3,结束于 4。