目录
- 一、grep命令
- 二、正则表达式
- 1、什么是正则表达式?
- 2、正则表达式元字符
- Ⅰ、字符匹配
- Ⅱ、匹配次数
- Ⅲ、位置锚定
- Ⅳ、分组及引用
- a、分组:
- b、引用:
- 3、实例
一、grep命令
- 命令解释
grep, egrep, fgrep - print lines matching a pattern(打印和模式匹配的行)
基于用户指定的“模式”,对目标文件逐行进行匹配检查,打印匹配到的行,默认打印到终端窗口
其中,模式指的是:由正则表达式元字符所编写出的过滤条件
- 命令语法
grep [OPTIONS] PATTERN [FILE…]
grep [OPTIONS] [-e PATTERN | -f FILE] [FILE…] - 命令选项
选 项 | 解 释 |
--color=auto | 高亮显示匹配到的关键字 |
-i 或 --ignore-case | 忽略字符大小写差别 |
-n 或 --line-number | 在显示符合样式的那一行之前,标示出改行的列数编号 |
-E 或 --extend-regexp | 将样式为延伸的正则表达式来使用 |
-w 或 --word-regexp | 只显示全字符合的列 |
-o 或 --only-matching | 只显示匹配PATTERN部分 |
-v 或 --revert-match | 显示不包含匹配文本的所有行(反向匹配) |
-A<显示行数> 或 --after-context=<显示行数> | 除了显示符合范本样式的那一列之外,并显示该行之后的内容。 |
-B<显示行数> 或 --before-context=<显示行数> | 除了显示符合范本样式的那一列之外,并显示该行之前的内容。 |
-C<显示行数> 或 --context=<显示行数> | 除了显示符合范本样式的那一列之外,并显示该行之前后的内容。 |
二、正则表达式
1、什么是正则表达式?
正则表达式(regular expression)描述了一种字符串匹配的模式(pattern),可以用来检查一个串是否含有某种子串、将匹配的子串替换或者从某个串中取出符合某个条件的子串等。它可以分为两类:基本正则表达式(Basic Regular Expression 又叫 Basic RegEx 简称 BREs)和 扩展正则表达式
2、正则表达式元字符
正则表达式元字符分为四种:字符匹配,匹配次数,位置锚定、分组及引用。可以用它们来表示一些特殊的含义或功能。
BRE | ERE | 描 述 |
. | . | 匹配任意单个字符 |
[] | [] | 匹配指定范围内任意单个字符 |
[^] | [^] | 匹配指定范围外任意单个字符 |
在方括号( [] )中可以使用一些特殊匹配模式:
匹配模式 | 描 述 |
[:upper:] | 所有大写字母 |
[:lower:] | 所有小写字母 |
[:alpha:] | 所有字母 |
[:digit:] | 所有数字 |
[:alnum:] | 所有字母和数字 |
[:space:] | 空白字符 |
[:punct:] | 所有标点符号 |
tips:用在要指定出现次数的字符后面,用来限制前面字符的出现次数。
BRE | ERE | 描 述 |
* | * | 匹配前面的字符任意次,包括0次(贪婪模式:尽可能长的匹配) |
.* | .* | 匹配任意长度的任意字符 |
\? | ? | 匹配前面的字符0或1次(至多1次) |
\+ | + | 匹配前面的字符至少一次 |
\{n\} | {n} | 匹配前面的字符n次 |
\{n,m\} | {n,m} | 匹配前面的字符至少n次,至多m次 |
\{,n\} | {,n} | 匹配前面的字符至多n次 |
\{n,\} | {n,} | 匹配前面的字符至少n次 |
BRE | ERE | 描 述 |
^ | ^ | 行首锚定,用于模式的最左侧 |
$ | $ | 行尾锚定,用于模式的最右侧 |
^PATTERN$ | ^PATTERN$ | 用于模式匹配整行 |
^$ | ^$ | 空行 |
^[[:space:]]*$ | ^[[:space:]]*$ | 空白行 |
\< 或 \b | < 或 \b | 词首锚定,用于单词模式的左侧 |
\> 或 \b | > 或 \b | 词尾锚定,用于单词模式的最右侧 |
\<PATTERN\> 或 \bPATTERN\b | <PATTERN> 或 \bPATTERN\b | 匹配整个单词 |
BRE | ERE | 描 述 |
| (string) | 分组,将一个或多个字符捆绑在一起当作一个整体处理 |
听着很抽象吧!下面给大家举个栗子:
BRE | ERE | 含 意 |
| (root)+ | 匹配“root”至少一次 |
符 号 | 描 述 |
\1 | 模式从左侧起,第一个左括号与之匹配的右括号之间模式所匹配到的字符 |
\2 | 模式从左侧起,第二个左括号与之匹配的右括号之间模式所匹配到的字符 |
… | … |
同样也很抽象,栗子来了:
BRE | ERE |
| (string1+(string2)*) |
其中, \1:string1+(string2)*
\2:string2
小tips:讲到这里,大家也可以发现:基本正则表达式与扩展正则表达式类似,只是扩展正则表达式的表达上更简单。正则表达式需要打"\(转义符)"来表示某些字符的意思,而扩展正则表达式则不需要。同时大家也要知道 egrep 与 grep -E 执行效果相似,都是使用extended regular expression语法来解读字符串的!
3、实例
1、显示 /etc/passwd 文件中不以/bin/bash结尾的行;
[root@localhost ~]# grep -v "/bin/bash$" /etc/passwd
2、找出 /etc/passwd 文件中的两位数或三位数;
[root@localhost ~]# grep --color=auto "[0-9]\{2,3\}" /etc/passwd
3、找出 /etc/c.d/rc.sysinit 文件中,至少一个空白字符开头,且后面非空白字符的行;
[root@localhost ~]# grep -n "^[[:space:]]\{1,\}[^[:space:]]" /etc/rc.d/rc.sysinit
4、找出"netstat -tan"命令的结果中以"LISTEN"后跟0、1或多个空白字符结尾的行;
[root@localhost ~]# netstat -tan | grep "LISTEN[[:space:]]*$"
5、这里给出一段浪漫的文本:
He loves his lover.
He likes his lover.
She likes her liker.
She loves her liker.
找出高亮显示的单词前后一致(同是love或like)的行;
150讲轻松搞定Python网络爬虫