正则表达式

REGEXP: Regular Expressions,由一类特殊字符及文本字符所编写的模式,其中有些字符(元字符)不表示字符字面意义,而表示控制或通配的功能,类似于增强版的通配符功能,但与通配符不同,通配符功能是用来处理文件名,而正则表达式是处理文本内容中字符。 正则表达式被很多程序和开发语言所广泛支持:vim, less,grep,sed,awk, nginx,mysql 等

正则表达式分两类: 基本正则表达式:BRE Basic Regular Expressions 扩展正则表达式:ERE Extended Regular Expressions

正则表达式的元字符分类:字符匹配、匹配次数、位置锚定、分组

帮助:man 7 regex

基本正则表达式元字符

字符匹配

.       匹配任意单个字符(除了\n),可以是一个汉字或其它国家的文字
[] 匹配指定范围内的任意单个字符,示例:[wang] [0-9] [a-z] [a-zA-Z]
[^] 匹配指定范围外的任意单个字符,示例:[^wang]
[:alnum:] 字母和数字
[:alpha:] 代表任何英文大小写字符,亦即 A-Z, a-z
[:lower:] 小写字母,示例:[[:lower:]],相当于[a-z]
[:upper:] 大写字母
[:blank:] 空白字符(空格和制表符)
[:space:] 包括空格、制表符(水平和垂直)、换行符、回车符等各种类型的空白,比[:blank:]包含的范围广
[:cntrl:] 不可打印的控制字符(退格、删除、警铃...)
[:digit:] 十进制数字
[:xdigit:]十六进制数字
[:graph:] 可打印的非空白字符
[:print:] 可打印字符
[:punct:] 标点符号
\s     #匹配任何空白字符,包括空格、制表符、换页符等等。等价于 [\f\r\t\v]。注意 Unicode正则表达式会匹配全角空格符
\S #匹配任何非空白字符。等价于 [^]
\w #匹配一个字母,数字,下划线,汉字,其它国家文字的字符,等价于[_[:alnum:]字]
\W #匹配一个非字母,数字,下划线,汉字,其它国家文字的字符,等价于[^_[:alnum:]字]

匹配次数

用在要指定次数的字符后面,用于指定前面的字符要出现的次数

*       #匹配前面的字符任意次,包括0次,贪婪模式:尽可能长的匹配
.* #任意长度的任意字符
\? #匹配其前面的字符出现0次或1次,即:可有可无
\+ #匹配其前面的字符出现最少1次,即:肯定有且 >=1 次
\{n\} #匹配前面的字符n次
\{m,n\} #匹配前面的字符至少m次,至多n次
\{,n\} #匹配前面的字符至多n次,<=n
\{n,\} #匹配前面的字符至少n次

例:

[root@rocky8-1 ~]#cat goole
goole
gole
goooole
gle
go0989779ljiole
g43590kjiwele

[root@rocky8-1 ~]#cat goole | grep 'go*le'
goole
gole
goooole
gle
[root@rocky8-1 ~]#cat goole | grep 'go.*le'
goole
gole
goooole
go0989779ljiole
[root@rocky8-1 ~]#cat goole | grep 'go\?le'
gole
gle
[root@rocky8-1 ~]#cat goole | grep 'go\+le'
goole
gole
goooole
[root@rocky8-1 ~]#cat goole | grep 'go\{2\}le'
goole
[root@rocky8-1 ~]#cat goole | grep 'go\{2,4\}le'
goole
goooole
[root@rocky8-1 ~]#cat goole | grep 'go\{,4\}le'
goole
gole
goooole
gle
[root@rocky8-1 ~]#cat goole | grep 'go\{2,\}le'
goole
goooole

---------------------------------------------------------------------------
[root@rocky8-1 ~]#cat goole
-1
-2
123
-123
-234
32432
[root@rocky8-1 ~]#cat goole |grep '\-\?[0-9]\+'
-1
-2
123
-123
-234
32432
[root@rocky8-1 ~]#cat goole |grep '\-[0-9]\+'
-1
-2
-123
-234
--------------------------------------------------------------------------

位置锚定

位置锚定可以用于定位出现的位置

^           #行首锚定, 用于模式的最左侧
$ #行尾锚定,用于模式的最右侧
^PATTERN$ #用于模式匹配整行
^$ #空行
^[[:space:]]*$ #空白行
\< 或 \b #词首锚定,用于单词模式的左侧 #尽量不要用\b,在grep搜索的时候\b和\<效果不同
\> 或 \b #词尾锚定,用于单词模式的右侧 #尽量不要用\b,在grep搜索的时候\b和\<效果不同
\<PATTERN\> #匹配整个单词
#注意: 单词是由字母,数字,下划线组成

例:

[root@rocky8-1 ~]#grep ^[^#] /etc/fstab
UUID=69617dca-2b4d-4664-ac18-051ffddf7f30 / xfs defaults 0 0
UUID=7c7f9ef6-8873-49ff-8abf-4dd4817ea481 /boot xfs defaults 0 0
UUID=9c5979a7-43fa-436c-8360-c2545dd81120 none swap defaults 0 0
[root@rocky8-1 ~]#grep '^$\|^#' /etc/fstab

#
# /etc/fstab
# Created by anaconda on Sat Jul 2 02:32:29 2022
#
# Accessible filesystems, by reference, are maintained under '/dev/disk/'.
# See man pages fstab(5), findfs(8), mount(8) and/or blkid(8) for more info.
#
# After editing this file, run 'systemctl daemon-reload' to update systemd
# units generated from this file.
#
[root@rocky8-1 ~]#grep -v '^$\|^#' /etc/fstab
UUID=69617dca-2b4d-4664-ac18-051ffddf7f30 / xfs defaults 0 0
UUID=7c7f9ef6-8873-49ff-8abf-4dd4817ea481 /boot xfs defaults 0 0
UUID=9c5979a7-43fa-436c-8360-c2545dd81120 none swap defaults 0 0

分组

分组:使用() 将多个字符捆绑在一起,当作一个整体处理,如:(root) 或 (root)+ 后向引用:分组括号中的模式匹配到的内容会被正则表达式引擎记录于内部的变量中,这些变量的命名方式为: \1, \2, \3, ... , \1 表示从左侧起第一个左括号以及与之匹配右括号之间的模式所匹配到的字符 。注意: 后向引用 引用前面的分组括号中的模式所匹配字符,而非模式本身 注意: \0 表示正则表达式匹配的所有字符

例:

user(root):(100)/bin/(noloing).*  
\1 : 表示从左往右第一个小括号内的内容:root
\2 :表示从左往右第二个小括号内的内容:100
以此类推

或者

或者:|

a\|b        #a或b
C\|cat #C或cat
\(C\|c\)at #Cat或cat

例:排除空行和#开头的行

[root@rocky8-1 ~]#grep -v '^#' /etc/init.d/functions |grep -v '^$'   注:^#表示以#开头,-v表示取反,^$表示以换号开头的行,也就是空行
[root@rocky8-1 ~]#grep -v '^#|^$' /etc/init.d/functions
[root@rocky8-1 ~]#egrep -v '^(#|$)' /etc/init.d/functions
[root@rocky8-1 ~]#grep '^[^#]' /etc/init.d/functions ## 不是#开头的一个字符,grep 默认就是行显示,如果加 -o 选项,就不能实现排除空行和#开头的行
扩展正则表达式元字符

字符匹配

.           任意单个字符
[wang] 指定范围的字符
[^wang] 不在指定范围的字符
[:alnum:] 字母和数字
[:alpha:] 代表任何英文大小写字符,亦即 A-Z, a-z
[:lower:] 小写字母,示例:[[:lower:]],相当于[a-z]
[:upper:] 大写字母
[:blank:] 空白字符(空格和制表符)
[:space:] 水平和垂直的空白字符(比[:blank:]包含的范围广)
[:cntrl:] 不可打印的控制字符(退格、删除、警铃...)
[:digit:] 十进制数字
[:xdigit:] 十六进制数字
[:graph:] 可打印的非空白字符
[:print:] 可打印字符
[:punct:] 标点符号

次数匹配

*       匹配前面字符任意次
? 0或1次
+ 1次或多次
{n} 匹配n次
{m,n} 至少m,至多n次

位置锚定

^       行首
$ 行尾
\<, \b 语首
\>, \b 语尾

分组其它

()      分组
后向引用:\1, \2, ... 注意: \0 表示正则表达式匹配的所有字符
| 或者
a|b a或b
C|cat C或cat
(C|c)at Cat或cat

例:

[root@rocky8-1 ~]#ifconfig |egrep -o "(([1-9]?[0-9]|1[0-9]{2}|2[0-4][0-9]|25[0-5])\.){3}([1-9]?[0-9]|1[0-9]{2}|2[0-4][0-9]|25[0-5])"          ## [1-9]?[0-9] 表示1位数或者2位数  ;| 表示或; 1[0-9]{2} 表示100-199的 ;2[0-4][0-9] 表示200-249 ;25[0-5] 表示250-255