正则表达式基础学习篇

精选翻译

wp19901021 2013-03-10 18:58:47

文章标签 正则表达式字符匹配 文章分类 运维

基本正则表达式

基本正则表达是的元字符有：

. ：匹配任意单个字符

[] ：匹配中括号范围以内的字符

[^] ：只匹配中括号范围以外的字符

^ ：匹配以其后面字符为开头的行

$ ：匹配以其前面字符为结尾的行

^$ ：匹配空白行

\b*\b ：匹配某个确定单词，也可以表示匹配以*开头或结尾的单词(此时*表示任意字符)

* ：匹配前面字符任意次

\{m,n\} ：匹配起前面字符最少m次，最多n次

+ ：重复前面字符至少一次，多则不限

 ：匹配小括号内的内容，且支持后向引用（引用时如果只有一个分组，则只用在后边添写\n即可，如果有多个分组，则需要表明)

\ ：逃字符，显示元字符本身的意思；

\. ：此时只表示字符“.”而不是任意单个字符

正则表达式查找文件时的命令格式：

grep [#] PATTERN filename 命令+参数+模式+文件

exp：# grep “r..t” /etc/passwd

表示匹配文件passwd中以r开头中间是两个任意字符，以t结尾的字符串

# grep “[ 0-9 ]” /etc/passwd。。。。。。。。。。。。中括号和范围之间可有空格，也可没有

匹配文件passwd中0-9中的任意字符

# grep “[^0-9]” /etc/passwd。。。。。。。。。。。。此时中括号和^及范围之间没有空格

匹配文件passwd中除了0-9以外的任意字符

# grep “^root” /etc/passwd

匹配文件中以字符root开头的行（此时显示时只突出显示匹配行中开头的字符）

# grep “bash$” /etc/passwd

匹配文件中以字符bash结尾的行（显示时只突出显示匹配行中结尾的字符）

# grep “^$” /etc/inittab

匹配文件inittab中的空白行

# grep “\buser1\b” /etc/passwd

只匹配文件passwd中的单词user1（显示时只突出显示匹配到的行中匹配单词）

# grep “b.*h” /etc/passwd

匹配文件passwd中以b开头后边跟任意个字符，并且以h结尾的字符串

# grep “ro\{1,2\}t” /etc/passwd

匹配文件passwd中任何以r开头，中间有一个或者两个o，以t结尾的字符

（此时\前面的字符为o，而大括号内的数字为1，2，所以只重复前面字符o 至少一次，最多两次。次数匹配还可以写为\{1,\}，重复前面字符最少一次，多则不限；\{0,9\}重复前面字符至少零次，最多九次，此时前面必须写零）

# grep “ro\+\t” /etc/passwd

匹配文件中以含有r和t，中间至少一个o的字符串

# grep “$user$.*\1” /etc/passwd

匹配文件passwd文件中含有user后面跟任意字符并且以user结尾的行

\n表示引用前面分组字符n次

# grep “\/bin\/bash” /etc/passwd

匹配文件passwd中含有/bin/bash的行，此时/只表示路径

[:space:] 空白字符的集合

[:digit:] 所有数字的集合

[:lower:] 所有小写字母的集合

[:upper:] 所有大写字母的集合

[:alpha:] 所有大小写字母的集合

[:alnum:] 所有数字的集合

[:punct:] 所有标点符号的集合

exp：# gerp “[[:space:]]*[[:lower:]]*[[:digit:]]” /etc/inittab

匹配文件inittab中所有含有任意个空白字符，之后跟任意个小写字母，在跟数字的字符串

grep命令可附加的部分参数：

-i 不区分大小写查找字符

-v 显示不包括匹配模式的所有内容

-o 只显示搜索到的内容

--color 将搜索到的内容以高亮颜色显示(默认为红色)

-n 显示搜索到的内容时显示行号

exp：

# grep -iv “bash” /etc/passwd

查找文件passwd中含有bash字符串的行，不管大小写，并且只显示没有匹配到的行

# grep -io “bash” /etc/passwd

查找文件passwd中含有bash的行，不管大小写，并且只将匹配到的行显示出来

# grep --color “^root” /etc/passwd

查找文件passwd中所有以root开头的行，并将匹配到的字符串以高亮颜色显示

# grep --color -ion “user” /etc/paswd

查找文件passwd中所有含有user的行，不管大小写，只以高亮颜色显示匹配到的字符串，并且显示这些字符串所在的行的行号

# grep -iA3 “^root” /etc/passwd

查找文件passwd中所有以root开头的行，不管大小写，并将这一行以下三行显示出来

# grep -iB3 “bash$” /etc/passwd

查找文件passwd中所有以bash结尾的行，不管大小写，并将这些行的上边三行显示出来，每一个被匹配到的行显示一段，中间以“--”隔开

# grep -ic2 “halt$” /etc/passwd

查找文件passwd中以halt结尾的行，并将这一行上边两行和下边两行都显示出来

扩展正则表达式

1、字符匹配：

.：任意单个字符

[]：范围内

[^]：范围外

*：其前面字符任意次

？：其前面字符的0次或者一次

+：匹配此前面的字符至少一次 '[[:space:]]+' 至少一个空字符

{m,n}:匹配m到n次，不需要再用\

^：锚定行首，此字符后面的任意内容必须出现在行首 grep '^ro' /file

$：锚定行尾，此字符前面的任意内容必须出现在行尾 grep 'ro$' /file

^$：空白行

\<：其后面的任意字符必须作为单词首部出现

\>：其前面的任意字符必须作为单词的尾部出现

\<或\b：锚定词首，其后面的任意字符必须作为单词首部出现

\>或\b：锚定词尾，其前面的任意字符必须作为单词的尾部出现

? 匹配其前面字符一次或者零次，表示前面字符可有可无

| 匹配字符串一或者字符串二

() 将括号内的内容视为一个整体

exp：

# egrep “ro?t” /etc/passwd

匹配文件passwd中含有字符串root或者rot的行

# egrep “root|bin” /etc/passwd

匹配文件passwd中含有字符串root或者bin的行

维基百科搜索到的正则表达式字符匹配行为列表

[编辑]

字符描述

\ 将下一个字符标记为一个特殊字符、或一个原义字符、或一个向后引用、或一个八进制转义符。例如，“`n`”匹配字符“`n`”。“`\n`”匹配一个换行符。串行“`\\`”匹配“`\`”而“`\(`”则匹配“`(`”。

^ 匹配输入字符串的开始位置。如果设置了RegExp对象的Multiline属性，^也匹配“`\n`”或“`\r`”之后的位置。

$ 匹配输入字符串的结束位置。如果设置了RegExp对象的Multiline属性，$也匹配“`\n`”或“`\r`”之前的位置。

* 匹配前面的子表达式零次或多次。例如，zo能匹配“`z`”以及“`zoo`”。等价于{0,}。

+ 匹配前面的子表达式一次或多次。例如，“`zo+`”能匹配“`zo`”以及“`zoo`”，但不能匹配“`z`”。+等价于{1,}。

? 匹配前面的子表达式零次或一次。例如，“`do(es)?`”可以匹配“`do`”或“`does`”中的“`do`”。?等价于{0,1}。

{n} n是一个非负整数。匹配确定的n次。例如，“`o{2}`”不能匹配“`Bob`”中的“`o`”，但是能匹配“`food`”中的两个o。

{n,} n是一个非负整数。至少匹配n次。例如，“`o{2,}`”不能匹配“`Bob`”中的“`o`”，但能匹配“`foooood`”中的所有o。“`o{1,}`”等价于“`o+`”。“`o{0,}`”则等价于“`o`”。

{n,m} m和n均为非负整数，其中n<=m。最少匹配n次且最多匹配m次。例如，“`o{1,3}`”将匹配“`fooooood`”中的前三个o。“`o{0,1}`”等价于“`o?`”。请注意在逗号和两个数之间不能有空格。

? 当该字符紧跟在任何一个其他限制符（,+,?，{n}，{n,}，{n,m}）后面时，匹配模式是非贪婪的。非贪婪模式尽可能少的匹配所搜索的字符串，而默认的贪婪模式则尽可能多的匹配所搜索的字符串。例如，对于字符串“`oooo`”，“`o+?`”将匹配单个“`o`”，而“`o+`”将匹配所有“`o`”。

. 匹配除“`\n`”之外的任何单个字符。要匹配包括“`\n`”在内的任何字符，请使用像“`(.|\n)`”的模式。

(pattern) 匹配pattern并获取这一匹配。所获取的匹配可以从产生的Matches集合得到，在VBScript中使用SubMatches集合，在JScript中则使用$0…$9属性。要匹配圆括号字符，请使用“`$`”或“`$`”。

(?:pattern) 匹配pattern但不获取匹配结果，也就是说这是一个非获取匹配，不进行存储供以后使用。这在使用或字符“`(|)`”来组合一个模式的各个部分是很有用。例如“`industr(?:y|ies)`”就是一个比“`industry|industries`”更简略的表达式。

(?=pattern) 正向肯定预查，在任何匹配pattern的字符串开始处匹配查找字符串。这是一个非获取匹配，也就是说，该匹配不需要获取供以后使用。例如，“`Windows(?=95|98|NT|2000)`”能匹配“`Windows2000`”中的“`Windows`”，但不能匹配“`Windows3.1`”中的“`Windows`”。预查不消耗字符，也就是说，在一个匹配发生后，在最后一次匹配之后立即开始下一次匹配的搜索，而不是从包含预查的字符之后开始。

(?!pattern) 正向否定预查，在任何不匹配pattern的字符串开始处匹配查找字符串。这是一个非获取匹配，也就是说，该匹配不需要获取供以后使用。例如“`Windows(?!95|98|NT|2000)`”能匹配“`Windows3.1`”中的“`Windows`”，但不能匹配“`Windows2000`”中的“`Windows`”。预查不消耗字符，也就是说，在一个匹配发生后，在最后一次匹配之后立即开始下一次匹配的搜索，而不是从包含预查的字符之后开始

(?<=pattern) 反向肯定预查，与正向肯定预查类似，只是方向相反。例如，“`(?<=95|98|NT|2000)Windows`”能匹配“`2000Windows`”中的“`Windows`”，但不能匹配“`3.1Windows`”中的“`Windows`”。

(?<!pattern) 反向否定预查，与正向否定预查类似，只是方向相反。例如“`(?<!95|98|NT|2000)Windows`”能匹配“`3.1Windows`”中的“`Windows`”，但不能匹配“`2000Windows`”中的“`Windows`”。

x|y 匹配x或y。例如，“`z|food`”能匹配“`z`”或“`food`”。“`(z|f)ood`”则匹配“`zood`”或“`food`”。

[xyz] 字符集合。匹配所包含的任意一个字符。例如，“`[abc]`”可以匹配“`plain`”中的“`a`”。

[^xyz] 负值字符集合。匹配未包含的任意字符。例如，“`[^abc]`”可以匹配“`plain`”中的“`plin`”。

[a-z] 字符范围。匹配指定范围内的任意字符。例如，“`[a-z]`”可以匹配“`a`”到“`z`”范围内的任意小写字母字符。

[^a-z] 负值字符范围。匹配任何不在指定范围内的任意字符。例如，“`[^a-z]`”可以匹配任何不在“`a`”到“`z`”范围内的任意字符。

\b 匹配一个单词边界，也就是指单词和空格间的位置。例如，“`er\b`”可以匹配“`never`”中的“`er`”，但不能匹配“`verb`”中的“`er`”。

\B 匹配非单词边界。“`er\B`”能匹配“`verb`”中的“`er`”，但不能匹配“`never`”中的“`er`”。

\cx 匹配由x指明的控制字符。例如，\cM匹配一个Control-M或回车符。x的值必须为A-Z或a-z之一。否则，将c视为一个原义的“`c`”字符。

\d 匹配一个数字字符。等价于[0-9]。

\D 匹配一个非数字字符。等价于[^0-9]。

\f 匹配一个换页符。等价于\x0c和\cL。

\n 匹配一个换行符。等价于\x0a和\cJ。

\r 匹配一个回车符。等价于\x0d和\cM。

\s 匹配任何空白字符，包括空格、制表符、换页符等等。等价于[ \f\n\r\t\v]。

\S 匹配任何非空白字符。等价于[^ \f\n\r\t\v]。

\t 匹配一个制表符。等价于\x09和\cI。

\v 匹配一个垂直制表符。等价于\x0b和\cK。

\w 匹配包括下划线的任何单词字符。等价于“`[A-Za-z0-9_]`”。

\W 匹配任何非单词字符。等价于“`[^A-Za-z0-9_]`”。

\xn 匹配n，其中n为十六进制转义值。十六进制转义值必须为确定的两个数字长。例如，“`\x41`”匹配“`A`”。“`\x041`”则等价于“`\x04&1`”。正则表达式中可以使用ASCII编码。.

\num 匹配num，其中num是一个正整数。对所获取的匹配的引用。例如，“`(.)\1`”匹配两个连续的相同字符。

\n 标识一个八进制转义值或一个向后引用。如果\n之前至少n个获取的子表达式，则n为向后引用。否则，如果n为八进制数字（0-7），则n为一个八进制转义值。

\nm 标识一个八进制转义值或一个向后引用。如果\nm之前至少有nm个获得子表达式，则nm为向后引用。如果\nm之前至少有n个获取，则n为一个后跟文字m的向后引用。如果前面的条件都不满足，若n和m均为八进制数字（0-7），则\nm将匹配八进制转义值nm。

\nml 如果n为八进制数字（0-3），且m和l均为八进制数字（0-7），则匹配八进制转义值nml。

\un 匹配n，其中n是一个用四个十六进制数字表示的Unicode字符。例如，\u00A9匹配版权符号（©）。

字符	描述
\	将下一个字符标记为一个特殊字符、或一个原义字符、或一个向后引用、或一个八进制转义符。例如，“`n`”匹配字符“`n`”。“`\n`”匹配一个换行符。串行“`\\`”匹配“`\`”而“`\(`”则匹配“`(`”。
^	匹配输入字符串的开始位置。如果设置了RegExp对象的Multiline属性，^也匹配“`\n`”或“`\r`”之后的位置。
$	匹配输入字符串的结束位置。如果设置了RegExp对象的Multiline属性，$也匹配“`\n`”或“`\r`”之前的位置。
*	匹配前面的子表达式零次或多次。例如，zo能匹配“`z`”以及“`zoo`”。等价于{0,}。
+	匹配前面的子表达式一次或多次。例如，“`zo+`”能匹配“`zo`”以及“`zoo`”，但不能匹配“`z`”。+等价于{1,}。
?	匹配前面的子表达式零次或一次。例如，“`do(es)?`”可以匹配“`do`”或“`does`”中的“`do`”。?等价于{0,1}。
{n}	n是一个非负整数。匹配确定的n次。例如，“`o{2}`”不能匹配“`Bob`”中的“`o`”，但是能匹配“`food`”中的两个o。
{n,}	n是一个非负整数。至少匹配n次。例如，“`o{2,}`”不能匹配“`Bob`”中的“`o`”，但能匹配“`foooood`”中的所有o。“`o{1,}`”等价于“`o+`”。“`o{0,}`”则等价于“`o*`”。
{n,m}	m和n均为非负整数，其中n<=m。最少匹配n次且最多匹配m次。例如，“`o{1,3}`”将匹配“`fooooood`”中的前三个o。“`o{0,1}`”等价于“`o?`”。请注意在逗号和两个数之间不能有空格。
?	当该字符紧跟在任何一个其他限制符（*,+,?，{n}，{n,}，{n,m}）后面时，匹配模式是非贪婪的。非贪婪模式尽可能少的匹配所搜索的字符串，而默认的贪婪模式则尽可能多的匹配所搜索的字符串。例如，对于字符串“`oooo`”，“`o+?`”将匹配单个“`o`”，而“`o+`”将匹配所有“`o`”。
.	匹配除“`\n`”之外的任何单个字符。要匹配包括“`\n`”在内的任何字符，请使用像“`(.\|\n)`”的模式。
(pattern)	匹配pattern并获取这一匹配。所获取的匹配可以从产生的Matches集合得到，在VBScript中使用SubMatches集合，在JScript中则使用$0…$9属性。要匹配圆括号字符，请使用“`\(`”或“`\)`”。
(?:pattern)	匹配pattern但不获取匹配结果，也就是说这是一个非获取匹配，不进行存储供以后使用。这在使用或字符“`(\|)`”来组合一个模式的各个部分是很有用。例如“`industr(?:y\|ies)`”就是一个比“`industry\|industries`”更简略的表达式。
(?=pattern)	正向肯定预查，在任何匹配pattern的字符串开始处匹配查找字符串。这是一个非获取匹配，也就是说，该匹配不需要获取供以后使用。例如，“`Windows(?=95\|98\|NT\|2000)`”能匹配“`Windows2000`”中的“`Windows`”，但不能匹配“`Windows3.1`”中的“`Windows`”。预查不消耗字符，也就是说，在一个匹配发生后，在最后一次匹配之后立即开始下一次匹配的搜索，而不是从包含预查的字符之后开始。
(?!pattern)	正向否定预查，在任何不匹配pattern的字符串开始处匹配查找字符串。这是一个非获取匹配，也就是说，该匹配不需要获取供以后使用。例如“`Windows(?!95\|98\|NT\|2000)`”能匹配“`Windows3.1`”中的“`Windows`”，但不能匹配“`Windows2000`”中的“`Windows`”。预查不消耗字符，也就是说，在一个匹配发生后，在最后一次匹配之后立即开始下一次匹配的搜索，而不是从包含预查的字符之后开始
(?<=pattern)	反向肯定预查，与正向肯定预查类似，只是方向相反。例如，“`(?<=95\|98\|NT\|2000)Windows`”能匹配“`2000Windows`”中的“`Windows`”，但不能匹配“`3.1Windows`”中的“`Windows`”。
(?<!pattern)	反向否定预查，与正向否定预查类似，只是方向相反。例如“`(?<!95\|98\|NT\|2000)Windows`”能匹配“`3.1Windows`”中的“`Windows`”，但不能匹配“`2000Windows`”中的“`Windows`”。
x\|y	匹配x或y。例如，“`z\|food`”能匹配“`z`”或“`food`”。“`(z\|f)ood`”则匹配“`zood`”或“`food`”。
[xyz]	字符集合。匹配所包含的任意一个字符。例如，“`[abc]`”可以匹配“`plain`”中的“`a`”。
[^xyz]	负值字符集合。匹配未包含的任意字符。例如，“`[^abc]`”可以匹配“`plain`”中的“`plin`”。
[a-z]	字符范围。匹配指定范围内的任意字符。例如，“`[a-z]`”可以匹配“`a`”到“`z`”范围内的任意小写字母字符。
[^a-z]	负值字符范围。匹配任何不在指定范围内的任意字符。例如，“`[^a-z]`”可以匹配任何不在“`a`”到“`z`”范围内的任意字符。
\b	匹配一个单词边界，也就是指单词和空格间的位置。例如，“`er\b`”可以匹配“`never`”中的“`er`”，但不能匹配“`verb`”中的“`er`”。
\B	匹配非单词边界。“`er\B`”能匹配“`verb`”中的“`er`”，但不能匹配“`never`”中的“`er`”。
\cx	匹配由x指明的控制字符。例如，\cM匹配一个Control-M或回车符。x的值必须为A-Z或a-z之一。否则，将c视为一个原义的“`c`”字符。
\d	匹配一个数字字符。等价于[0-9]。
\D	匹配一个非数字字符。等价于[^0-9]。
\f	匹配一个换页符。等价于\x0c和\cL。
\n	匹配一个换行符。等价于\x0a和\cJ。
\r	匹配一个回车符。等价于\x0d和\cM。
\s	匹配任何空白字符，包括空格、制表符、换页符等等。等价于[ \f\n\r\t\v]。
\S	匹配任何非空白字符。等价于[^ \f\n\r\t\v]。
\t	匹配一个制表符。等价于\x09和\cI。
\v	匹配一个垂直制表符。等价于\x0b和\cK。
\w	匹配包括下划线的任何单词字符。等价于“`[A-Za-z0-9_]`”。
\W	匹配任何非单词字符。等价于“`[^A-Za-z0-9_]`”。
\xn	匹配n，其中n为十六进制转义值。十六进制转义值必须为确定的两个数字长。例如，“`\x41`”匹配“`A`”。“`\x041`”则等价于“`\x04&1`”。正则表达式中可以使用ASCII编码。.
\num	匹配num，其中num是一个正整数。对所获取的匹配的引用。例如，“`(.)\1`”匹配两个连续的相同字符。
\n	标识一个八进制转义值或一个向后引用。如果\n之前至少n个获取的子表达式，则n为向后引用。否则，如果n为八进制数字（0-7），则n为一个八进制转义值。
\nm	标识一个八进制转义值或一个向后引用。如果\nm之前至少有nm个获得子表达式，则nm为向后引用。如果\nm之前至少有n个获取，则n为一个后跟文字m的向后引用。如果前面的条件都不满足，若n和m均为八进制数字（0-7），则\nm将匹配八进制转义值nm。
\nml	如果n为八进制数字（0-3），且m和l均为八进制数字（0-7），则匹配八进制转义值nml。
\un	匹配n，其中n是一个用四个十六进制数字表示的Unicode字符。例如，\u00A9匹配版权符号（©）。