Linux 文本处理三剑客

grep : 文本过滤工具

sed 文本编辑器(以行为编辑对象单位) stream editor

awk 文本报告生成器; linuxawk的实现为gawk

 

grepGlobal search REgular Expression and Print out the line

  作用:文本搜索工具,根据用户指定的“模式(pattern)”逐行去搜索目标文本,打印匹配到的行。

  模式:由正则表达式的元字符及文本字符所编写的过滤条件;

 元字符:字符不表示其字面意义,而用于表示通配或控制功能

 

正则表达式分为两类:

   基本正则表达式 BRE

 扩展正则表达式 ERE

 

grep命令:

  语法:  grep [OPTIONS] PATTERN [FILE...]

  参数

    --color=auto:对匹配到的字符串高亮显示

    -i:忽略大小写

    -n:输出行号

    -v:反向选择,显示没有‘搜索字符串’的行

    -o:仅显示能够被模式匹配到的字符串本身

    -q:静默模式

    -E:使用扩展的正则表达式

基本正则表达式的元字符:

  字符匹配:

    .匹配任意单个字符;

    []: 匹配指定范围内的任意单个字符

    [^]: 匹配指定范围外的任意单个字符,^[]中代表反向选择


特殊符号

[:alnum:]

代表英文大小写字符及数字,0-9A-Za-z

[:alpha:]

代表任何英文小写字符 a-z

[:blank:]

空格键与[Tab]

[:cntrl:]

键盘上的控制按键,CRLFTabDel

[:digit:]

数字 0-9

[:lower:]

小写字符 a-z

[:upper:]

大写字符 A-Z

[:punct:]

代表标点符号 “ ’ ? ! ;:$#


次数匹配:用于指定其次数的字符的后面

    *: 重复0次或多次前一个字符

    \?: 重复0次或1次前一个字符

    \+: 重复1次或多次前一个字符

    \{m\} : 连续重复m次前一个字符

    \{m,n\}: 重复mn个前一个字符  [m,n]

        \{0,n\}: 重复至多n次前一个字符

        \{m,\}: 重复至少m次前一个字符

    .*: 匹配任意长度的任意字符

位置锚定:

  ^word: 行首锚定,待查找字符串word在行首

   word$行尾锚定,待查找字符串word在行尾

    \<\b: 词首锚定,待查找单词的左侧

    \>\b词尾锚定,待查找单词的右侧

分组:\(\)

    分组的小括号中的模式匹配到的内容,会在执行过程中被正则表达式引擎记录下来,并保存内置的变量中,这些变量分别是\1, \2 

    后向引用使用变量引用前面的分组括号中的模式所匹配到的字符。

示例:

#显示重复0次或多次前一个字符(可以是0次,所以只有字母b也符合)
[root@localhost test]# grep 'a*b' test_grep 
aabbccdd
343kkkbord

#重复0次或1次前一个字符
[root@localhost test]# grep 'a\?b' test_grep 
aabbccdd
aaabcd
abcde
343kkkbord

# 重复1次或多次前一个字符
[root@localhost test]# grep 'a\+b' test_grep 
aabbccdd
aaabcd
abcde

# 连续重复2次前一个字符
[root@localhost test]# grep 'a\{2\}b' test_grep 
aabbccdd
aaabcd   #此行符合重复2次a  aab

#\{0,n\}: 重复至多n次前一个字符
[roger@oc3137372501 test]$ grep 'a\{0,2\}b' test_grep 
aaabc
aabbcc
abababab
abcabcabc
bcdef

#匹配行首是aaa的行
[roger@oc3137372501 test]$ grep '^aaa' test_grep 
aaabc

#匹配行尾是bab结束的行
[roger@oc3137372501 test]$ grep 'bab$' test_grep 
Abababab

#查找单词are所在的行
[roger@oc3137372501 test]$ grep '\bare\b' test_grep 
how are you?
how old are you?
where are you from?

#分组的使用
[roger@oc3137372501 test]$ grep '\(aba\).*\1' test_grep 
aba666abab #结尾的b是不会被匹配到的


扩展正则表达式:

简化命令操作,支持查找模式内管道命令,元字符不用转义字符

grep家庭有三个命令

  grep :基本正则表达式

      -e :扩展正则表达式

      -f :不支持正则表达式

egrep 扩展正则表达式

fgrep 不支持正则表达式

 

扩展正则表达式的元字符

  字符匹配:

    .匹配任意单个字符;

    []: 匹配指定范围内的任意单个字符

    [^]: 匹配指定范围外的任意单个字符,^[]中代表反向选择

  次数匹配

    *: 重复0次或多次前一个字符

        ?: 重复0次或1次前一个字符

        +: 重复1次或多次前一个字符

        {m} : 连续重复m次前一个字符

        {m,n}: 重复mn个前一个字符  [m,n]


        .*: 匹配任意长度的任意字符

位置锚定:

      ^word: 行首锚定,待查找字符串word在行首

    word$行尾锚定,待查找字符串word在行尾

    \<\b: 词首锚定,待查找单词的左侧

    \>\b词尾锚定,待查找单词的右侧

 

分组:()

    后向引用(\n)n代表1,2,,3..:\1, \2, ...

             当模式中出现(),在后面可以使用\1来引用第一个括号匹配到的内容,\2表示引用第二个括号匹配到的内容,

顺序是从左到右。

            示例:

             正则表达式 grep egrep_stream 

            \1  引用前面的aa 匹配到aabaa

 

模式中应用管道命令

    a|b 

    C|cat: 不表示Catcat,而表示Ccat

            要写成(C|c)at

       egrep   'a|b'   test.txt


练习:
    1、显示/etc/passwd文件中以bash结尾的行;

   #这种写法存在问题,如果存在最后单词中结尾是bash的也会被显示出来
   roger@oc3137372501 test]$ grep 'bash$' /etc/passwd
   root:x:0:0:root:/root:/bin/bash
   roger:x:500:500:Roger.Wang:/home/roger:/bin/bash
   
   #通过\b 锚定词的首位,保证搜索到的是bash
   [roger@oc3137372501 bin]$ grep '\bbash\b$' /etc/passwd
    root:x:0:0:root:/root:/bin/bash
    roger:x:500:500:Roger.Wang:/home/roger:/bin/bash

    2、显示/etc/passwd文件中的两位数或三位数;

[roger@oc3137372501 test]$  grep '\<[0-9]\{2,3\}\>' /etc/passwd
mail:x:8:12:mail:/var/spool/mail:/sbin/nologin
uucp:x:10:14:uucp:/var/spool/uucp:/sbin/nologin
.....
gdm:x:42:42:gdm system account:/var/lib/gdm:/sbin/nologin
tcpdump:x:72:72::/:/sbin/nologin
roger:x:500:

    3、显示'netstat -tan'命令结果中以‘LISTEN’后跟0个、1个或多个空白字符结尾的行;

[roger@oc3137372501 test]$ netstat -tan | grep 'LISTEN *'
tcp        0      0 0.0.0.0:1445                0.0.0.0:*                   LISTEN      
tcp        0      0 0.0.0.0:902                 0.0.0.0:*                   LISTEN      
tcp        0      0 0.0.0.0:139                 0.0.0.0:*                   LISTEN      
tcp        0      0 127.0.0.1:52719             0.0.0.0:*                   LISTEN      
tcp        0      0 0.0.0.0:111                 0.0.0.0:*                   LISTEN      
tcp        0      0 127.0.0.1:8979              0.0.0.0:*                   LISTEN      
tcp        0      0 0.0.0.0:48500               0.0.0.0:*                   LISTEN      
tcp        0      0 127.0.0.1:59669             0.0.0.0:*                   LISTEN      
.......

    4、添加用户bash,testbash, basher以及nologin用户(nologin用户的shell为/sbin/nologin);而后找出/etc/passwd文件中用户名同shell名的行;

  
  [roger@oc3137372501 bin]$ grep '\(^\<.*\>\).*\1$' /etc/passwd
  sync:x:5:0:sync:/sbin:/bin/sync
  shutdown:x:6:0:shutdown:/sbin:/sbin/shutdown
  halt:x:7:0:halt:/sbin:/sbin/halt

    5、显示当前系统上root、centos或user1用户的默认的shell和UID;

  
  # egrep '^(root|centos|user1)' /etc/passwd | cut -d ':' -f 1,3,7

    6、找出/etc/rc.d/init.d/functions文件中某单词(单词中间可以存在下划线)后面跟着一组小括号的行;

  
  # egrep '\b\w+\b.*\(.*\)' /etc/rc.d/init.d/functions

    7、使用echo输出一个路径,而后egrep找出其路径基名;进一步地:使用egrep取出其目录名;

           处理的不合适,有待继续研究

  #路径基名 basename :
  # echo /home/roger/test | egrep -o '[^/]*$'
  #目录名 dirname :
  #echo /home/roger/test | egrep -o '[/].*[/]'

    8、找出ifconfig命令执行结果中1-255之间的数字;

# ifconfig | egrep '\b[1-9]\b|\b[1-9][0-9]\b|\b1[0-9][0-9]\b|\b2[0-4][0-9]\b|\b25[0-5]\b'

如有错误,敬请指正!

谢谢!