什么是正则表达式

    正则表达式(Regular Expression,常简写为regex、regexp或RE)是通过一些特殊字符的排列,用以查找、替换、删除一行或多行文字字符串,简单来说,它就是用在字符串的处理上面的一项表达式

    正则表达式语言由两种基本字符类型组成:原义(正常)文本字符和元字符。元字符使正则表达式具有处理能力。所谓元字符就是指那些在正则表达式中具有特殊意义的专用字符,不表示其字面意义,而用于额外功能性描述。

正则表达式的分类

    正则表达式根据元字符的数量及功能不同又分为基本正则表达式(grep)和拓展正则表达式(egrep)。而grep和egrep同属于文本搜索工具,可根据用户指定的文本模式(搜索条件)对目标文件进行逐行搜索,显示能匹配到的行。egrep等同于grep -E,与grep和egrep相似的文本搜索工具还有fgrep,区别是它不支持使用正则表达式。

正则表达式的语法

基本正则表达式(grep)

    语法格式:grep[option]... 'PATTERN' FILE...

    基本正则表达式元字符:

    1.字符匹配:

        .:匹配任意单个字符

        [ ]:匹配指定范围内([]内)的任意单个字符

      [0-9]:匹配单个数字

       [a-z]:匹配单个小写字母

       [A-Z]:匹配单个大写字母

   [[:digit:]]:匹配单个数字

   [[:lower:]]:匹配单个小写字母

   [[:upper:]]:匹配单个大写字母

   [[:space:]]:匹配单个空白字符

   [[:punct:]]:匹配单个标点符号

   [[:alnum:]]:匹配单个字母或数字

   [[:alpha:]]:匹配单个字母(不分大小写)

        [^ ]:匹配范围外的任意单个字符

    2.次数匹配

        *:任意次(前面字符出现任意次)

        \?:0次或1次(前面字符可有可无)

      \{m\}: m次(前面字符出现m次)

      \{m,n\}:至少m次,至多n次

      \{m, \}:至少m次

      \{0,n\}:至多n次

        .*:任意长度的任意字符

    3.位置锚定:

         ^:行首锚定(写在模式最左侧)

        $:行尾锚定(写在模式最右侧)

         ^$:空白行

       \<,/b:词首锚定(出现于单词左侧)

       \>,/b:词尾锚定(出现于单词右侧)

    4.分组

     分组的小括号中的模式匹配到的内容,会在执行过程中被正则表达式引擎记录下来,并保存内置的变量中;这些变量分别是\1, \2, ...

          \1: 从左侧起,第一个左括号,以及与之配对的右括号中间的模式所匹配到的内容;

            5.引用

         \n:引用前面的第n个左括号以及与之对应的右括号中的模式所匹配到的内容

拓展正则表达式(egrep)

    语法格式:egrep [option] 'PATTERN' FILE...

    拓展正则表达式元字符:

     1.字符匹配:

        .:任意单个字符

        [ ]:匹配范围内的任意单个字符

        [^]:匹配范围外的任意单个字符

     2.次数匹配:

     扩展正则在这部分就不需要转意符符(\)了,这是相对于基本正则的最大区别之一

        *:任意次

        ?: 0或1次

        +:至少1次

        {m}: m次

        {m,n}:至少m次,至多n次

        {m,}:至少m次

        {0,n}:至多n次

     3.位置锚定:

        ^:行首锚定

        $:行尾锚定

        \<,\b:词首锚定

        \>,\b:词尾锚定

        ^$,^[[:space:]]*$:空白行

    4.分组:

        ( ):分组

        |:或 

     5.引用:

       \n:引用前面的第n个左括号以及与之对应的右括号中的模式所匹配到的内容

     grep及egrep命令选项

    -v: 反向选取

      -o:仅显示匹配的字串,而非字串所在的行

      -i:ignore-case,忽略字符大小写

      -A:显示之后两行

      -B:显示之前两行

      -C:显示上下两行

正则表达式使用范例

1、显示/etc/passwd文件中以bash结尾的行

        grep "bash\$" /etc/passwd

2、显示/etc/passwd文件中的两位数或三位数

        grep "\<[0-9]\{2,3\}" /etc/passwd

3、显示`netstat -tan`命令结果中以‘LISTEN’后跟0个、1个或者多个空白字符结尾的行

         netstat -tan |grep "LISTEN[[:space:]]\{0,\}"

4、添加用户bash、testbash、basher以及nologin用户(nologin用户的shell为/sbin/nologin);而后找出/etc/passwd文件中用户名与其shell名相同的行

        grep "^\([[:alnum:]]\{1,\}\):.*\1$" /etc/passwd      

7、显示当前系统上root、centos或者user1用户的默认shell和UID (请事先创建这些用户,若不存在)

        cut -d : -f1,3,7 /etc/passwd |egrep "^(root|centos|user1)" 

8、找出/etc/rc.d/init.d/functions文件中某单词(单词中间可以存在下划线)后面跟着一组小括号的行

        grep "_*[[:alpha:]]*()" /etc/rc.d/init.d/functions 

9、使用echo输出一个路径,而后egrep找出其路径基名;进一步的使用egrep取出其目录名

        echo "/etc/passwd" |egrep -o "^\/\<[[:alnum:]]*\>" |cut -d /

        echo "/etc/passwd" |egrep -o "/\<[[:alnum:]]*$"\>" |cut -d /

10、找出ifconfig命令执行结果中1-255之间的数字

        ifconfig |egrep -o "\<([0-9]|[1-9][0-9]|1[0-9][0-9]|2[0-5][0-5])\>"