目录

  • 一、grep命令
  • 二、正则表达式
  • 1、什么是正则表达式?
  • 2、正则表达式元字符
  •   Ⅰ、字符匹配
  •   Ⅱ、匹配次数
  •   Ⅲ、位置锚定
  •   Ⅳ、分组及引用
  •     a、分组:
  •     b、引用:
  • 3、实例


一、grep命令

  • 命令解释
      grep, egrep, fgrep - print lines matching a pattern(打印和模式匹配的行)

基于用户指定的“模式”,对目标文件逐行进行匹配检查,打印匹配到的行,默认打印到终端窗口
其中,模式指的是:由正则表达式元字符所编写出的过滤条件

  • 命令语法
      grep [OPTIONS] PATTERN [FILE…]
      grep [OPTIONS] [-e PATTERN | -f FILE] [FILE…]
  • 命令选项

选 项

解 释

--color=auto

高亮显示匹配到的关键字

-i 或 --ignore-case

忽略字符大小写差别

-n 或 --line-number

在显示符合样式的那一行之前,标示出改行的列数编号

-E 或 --extend-regexp

将样式为延伸的正则表达式来使用

-w 或 --word-regexp

只显示全字符合的列

-o 或 --only-matching

只显示匹配PATTERN部分

-v 或 --revert-match

显示不包含匹配文本的所有行(反向匹配)

-A<显示行数> 或 --after-context=<显示行数>

除了显示符合范本样式的那一列之外,并显示该行之的内容。

-B<显示行数> 或 --before-context=<显示行数>

除了显示符合范本样式的那一列之外,并显示该行之的内容。

-C<显示行数> 或 --context=<显示行数>

除了显示符合范本样式的那一列之外,并显示该行之前后的内容。

二、正则表达式

1、什么是正则表达式?

  正则表达式(regular expression)描述了一种字符串匹配的模式(pattern),可以用来检查一个串是否含有某种子串、将匹配的子串替换或者从某个串中取出符合某个条件的子串等。它可以分为两类:基本正则表达式(Basic Regular Expression 又叫 Basic RegEx 简称 BREs)和 扩展正则表达式

2、正则表达式元字符

  正则表达式元字符分为四种:字符匹配,匹配次数,位置锚定、分组及引用。可以用它们来表示一些特殊的含义或功能。

BRE

ERE

描 述

.

.

匹配任意单个字符

[]

[]

匹配指定范围内任意单个字符

[^]

[^]

匹配指定范围外任意单个字符

  在方括号( [] )中可以使用一些特殊匹配模式:

匹配模式

描 述

[:upper:]

所有大写字母

[:lower:]

所有小写字母

[:alpha:]

所有字母

[:digit:]

所有数字

[:alnum:]

所有字母和数字

[:space:]

空白字符

[:punct:]

所有标点符号

tips:用在要指定出现次数的字符后面,用来限制前面字符的出现次数。

BRE

ERE

描 述

*

*

匹配前面的字符任意次,包括0次(贪婪模式:尽可能长的匹配)

.*

.*

匹配任意长度的任意字符

\?

?

匹配前面的字符0或1次(至多1次)

\+

+

匹配前面的字符至少一次

\{n\}

{n}

匹配前面的字符n次

\{n,m\}

{n,m}

匹配前面的字符至少n次,至多m次

\{,n\}

{,n}

匹配前面的字符至多n次

\{n,\}

{n,}

匹配前面的字符至少n次

BRE

ERE

描 述

^

^

行首锚定,用于模式的最左侧

$

$

行尾锚定,用于模式的最右侧

^PATTERN$

^PATTERN$

用于模式匹配整行

^$

^$

空行

^[[:space:]]*$

^[[:space:]]*$

空白行

\< 或 \b

< 或 \b

词首锚定,用于单词模式的左侧

\> 或 \b

> 或 \b

词尾锚定,用于单词模式的最右侧

\<PATTERN\> 或 \bPATTERN\b

<PATTERN> 或 \bPATTERN\b

匹配整个单词

BRE

ERE

描 述

\(string\)

(string)

分组,将一个或多个字符捆绑在一起当作一个整体处理

听着很抽象吧!下面给大家举个栗子:

BRE

ERE

含 意

\(root\)\+

(root)+

匹配“root”至少一次

符 号

描 述

\1

模式从左侧起,第一个左括号与之匹配的右括号之间模式所匹配到的字符

\2

模式从左侧起,第二个左括号与之匹配的右括号之间模式所匹配到的字符



同样也很抽象,栗子来了:

BRE

ERE

\(string1+\(string2\)*\)

(string1+(string2)*)

其中, \1:string1+(string2)*
    \2:string2

小tips:讲到这里,大家也可以发现:基本正则表达式与扩展正则表达式类似,只是扩展正则表达式的表达上更简单。正则表达式需要打"\(转义符)"来表示某些字符的意思,而扩展正则表达式则不需要。同时大家也要知道 egrepgrep -E 执行效果相似,都是使用extended regular expression语法来解读字符串的!

3、实例

1、显示 /etc/passwd 文件中不以/bin/bash结尾的行;

[root@localhost ~]# grep -v "/bin/bash$" /etc/passwd

2、找出 /etc/passwd 文件中的两位数或三位数;

[root@localhost ~]# grep --color=auto "[0-9]\{2,3\}" /etc/passwd

3、找出 /etc/c.d/rc.sysinit 文件中,至少一个空白字符开头,且后面非空白字符的行;

[root@localhost ~]# grep -n "^[[:space:]]\{1,\}[^[:space:]]" /etc/rc.d/rc.sysinit

4、找出"netstat -tan"命令的结果中以"LISTEN"后跟0、1或多个空白字符结尾的行;

[root@localhost ~]# netstat -tan | grep "LISTEN[[:space:]]*$"

5、这里给出一段浪漫的文本:


  He loves his lover.
  He likes his lover.
  She likes her liker.
  She loves her liker.


找出高亮显示的单词前后一致(同是love或like)的行;

shell grep 正则表达式最小匹配 grep命令正则表达式_grep


150讲轻松搞定Python网络爬虫