grep awk sed 练习

转载

编程小匠人之魂 2024-08-01 16:46:19

文章标签 grep awk sed 练习 sed 分隔符搜索 文章分类 云原生云计算

1. grep简介
grep （global search regular expression(RE) and print out the line,全面搜索正则表达式并把行打印出来）是一种强大的文本搜索工具，它能使用正则表达式搜索文本，并把匹配的行打印出来。Unix的grep家族包括grep、egrep和fgrep。egrep和fgrep的命令只跟grep有很小不同。egrep是grep的扩展，支持更多的re元字符， fgrep就是fixed grep或fast grep，它们把所有的字母都看作单词，也就是说，正则表达式中的元字符表示回其自身的字面意义，不再特殊。linux使用GNU版本的grep。它功能更强，可以通过-G、-E、-F命令行选项来使用egrep和fgrep的功能。
grep的工作方式是这样的:它在一个或多个文件中搜索字符串模板。如果模板包括空格，则必须被引用，模板后的所有字符串被看作文件名。搜索的结果被送到屏幕，不影响原文件内容。
grep可用于shell脚本，因为grep通过返回一个状态值来说明搜索的状态，如果模板搜索成功，则返回0，如果搜索不成功，则返回1，如果搜索的文件不存在，则返回2。我们利用这些返回值就可进行一些自动化的文本处理工作。
1. grep正则表达式元字符集（基本集）
^ 锚定行的开始如：'^grep'匹配所有以grep开头的行。
$ 锚定行的结束如：'grep$'匹配所有以grep结尾的行。
. 匹配一个非换行符的字符如：'gr.p'匹配gr后接一个任意字符，然后是p。
* 匹配零个或多个先前字符如：'*grep'匹配所有一个或多个空格后紧跟grep的行。 .*一起用代表任意字符。
[] 匹配一个指定范围内的字符，如'[Gg]rep'匹配Grep和grep。
[^] 匹配一个不在指定范围内的字符，如：'[^A-FH-Z]rep'匹配不包含A-R和T-Z的一个字母开头，紧跟rep的行。
$..$ 标记匹配字符，如'$love$'，love被标记为1。
\< 锚定单词的开始，如:'\<grep'匹配包含以grep开头的单词的行。
\> 锚定单词的结束，如'grep\>'匹配包含以grep结尾的单词的行。
x\{m\} 重复字符x，m次，如：'0\{5\}'匹配包含5个o的行。
x\{m,\} 重复字符x,至少m次，如：'o\{5,\}'匹配至少有5个o的行。
x\{m,n\} 重复字符x，至少m次，不多于n次，如：'o\{5,10\}'匹配5--10个o的行。
\w 匹配文字和数字字符，也就是[A-Za-z0-9]，如：'G\w*p'匹配以G后跟零个或多个文字或数字字符，然后是p。
\W \w的反置形式，匹配一个或多个非单词字符，如点号句号等。
\b 单词锁定符，如: '\bgrepb\'只匹配grep。
2. 用于egrep和 grep -E的元字符扩展集
+ 匹配一个或多个先前的字符。如：'[a-z]+able'，匹配一个或多个小写字母后跟able的串，如loveable,enable,disable等。
? 匹配零个或多个先前的字符。如：'gr?p'匹配gr后跟一个或没有字符，然后是p的行。
a|b|c 匹配a或b或c。如：grep|sed匹配grep或sed
() 分组符号，如：love(able|rs)ov+匹配loveable或lovers，匹配一个或多个ov。
x{m},x{m,},x{m,n} 作用同x\{m\},x\{m,\},x\{m,n\}
4. POSIX字符类
为了在不同国家的字符编码中保持一至，POSIX(The Portable Operating System Interface)增加了特殊的字符类，如[:alnum:]是A-Za-z0-9的另一个写法。要把它们放到[]号内才能成为正则表达式，如[A- Za-z0-9]或[[:alnum:]]。在linux下的grep除fgrep外，都支持POSIX的字符类。
[:alnum:] 文字数字字符
[:alpha:]文字字符
[:digit:] 数字字符
[:graph:] 非空字符（非空格、控制字符）
[:lower:] 小写字符
[:cntrl:] 控制字符
[:print:] 非空字符（包括空格）
[:punct:] 标点符号
[:space:] 所有空白字符（新行，空格，制表符）
[:upper:] 大写字符
[:xdigit:] 十六进制数字（0-9，a-f，A-F）
4. Grep命令选项
-? 同时显示匹配行上下的？行，如：grep -2 pattern filename同时显示匹配行的上下2行。
-b，--byte-offset 打印匹配行前面打印该行所在的块号码。
-c,--count 只打印匹配的行数，不显示匹配的内容。
-f File，--file=File 从文件中提取模板。空文件中包含0个模板，所以什么都不匹配。
-h，--no-filename 当搜索多个文件时，不显示匹配文件名前缀。
-i，--ignore-case 忽略大小写差别。
-q，--quiet 取消显示，只返回退出状态。0则表示找到了匹配的行。
-l，--files-with-matches 打印匹配模板的文件清单。
-L，--files-without-match 打印不匹配模板的文件清单。
-n，--line-number 在匹配的行前面打印行号。
-s，--silent 不显示关于不存在或者无法读取文件的错误信息。
-v，--revert-match 反检索，只显示不匹配的行。
-w，--word-regexp 如果被\<和\>引用，就把表达式做为一个单词搜索。
-V，--version 显示软件版本信息。
5. 实例
要用好grep这个工具，其实就是要写好正则表达式，所以这里不对grep的所有功能进行实例讲解，只列几个例子，讲解一个正则表达式的写法。
$ ls -l | grep '^a'
通过管道过滤ls -l输出的内容，只显示以a开头的行。
$ grep 'test' d*
显示所有以d开头的文件中包含test的行。
$ grep 'test' aa bb cc
显示在aa，bb，cc文件中匹配test的行。
$ grep '[a-z]\{5\}' aa
显示所有包含每个字符串至少有5个连续小写字符的字符串的行。
$ grep 'w$es$t.*\1' aa
如果west被匹配，则es就被存储到内存中，并标记为1，然后搜索任意个字符（.*），这些字符后面紧跟着另外一个es（\1），找到就显示该行。如果用egrep或grep -E，就不用"\"号进行转义，直接写成'w(es)t.*\1'就可以了。

awk 用法：awk ' pattern {action} '

变量名含义
ARGC 命令行变元个数
ARGV 命令行变元数组
FILENAME 当前输入文件名
FNR 当前文件中的记录号
FS 输入域分隔符，默认为一个空格
RS 输入记录分隔符
NF 当前记录里域个数
NR 到目前为止记录数
OFS 输出域分隔符
ORS 输出记录分隔符

用法介绍：
1,模式匹配
awk '/zqy/' fileA #寻找出fileA中含有zqy的行等同于awk '$0~/zqy/' fileA
awk '$1~/88/' fileA #找出第一个域里面包含88的行
awk '$1~/88/{print $2}' fileA #找出第一个域里面包含88的行后，只打印该行的第二个域

2,对不同的域进行操作
awk '$2 >25 && $2<=55' fileA #找出第二个域里面满足条件的行，可以加上{print $n}来打印任意域
############### fileB #################
884     46      1       8       5       944
734     41      0       10      2       787
647     29      1       8       1       686
536     26      1       9       0       572
############### fileB #################
$ less fileB
884     46      1       8       5       944
734     41      0       10      2       787
647     29      1       8       1       686
536     26      1       9       0       572
$awk '{print NR,NF,$NF}' fileB # NR:文件当前记录号(在这里可以理解为行数); NF:总的域的个数(可以理解为列数); $NF:想一想是什么东西吧？再不知道就撞墙去吧。
1 6 944
2 6 787
3 6 686
4 6 572

3,通过-F参数来改变域分隔符，FS设置输入分隔符,OFS设置输出分隔符，awk所有操作都支持管道。如：
df | awk '$4>1000000 '          通过管道符获得输入，如：显示第4个域满足条件的行。
awk -F "|" '{print $1}' file 按照新的分隔符“|”进行操作。
awk 'BEGIN { FS="[: \t|]"}{print $1,$2,$3}' file 通过设置输入分隔符（FS="[: \t|]"）修改输入分隔符。BEGIN 表示在处理任意行之前进行的操作。
awk 'BEGIN { OFS="%"} {print $1,$2,$3}' file 通过设置输出分隔符（OFS="%"）修改输出格式。
Sep="|"
awk -F $Sep '{print $1}' file 按照环境变量Sep的值做为分隔符。
awk -F '[ :\t|]' '{print $1}' file 按照正则表达式的值做为分隔符，这里代表空格、:、TAB、|同时做为分隔符。
awk -F '[][]' '{print $1}' file 按照正则表达式的值做为分隔符，这里代表[、]

4、
awk -f awkfile file 通过文件awkfile的内容依次进行控制。
cat awkfile
/101/{print "\047 Hello! \047"} --遇到匹配行以后打印 ' Hello! '.\047代表单引号。
{print $1,$2}                    --因为没有模式控制，打印每一行的前两个域。

5、
awk 'BEGIN { max=100 ;print "max=" max} {max=($1 >max ?$1:max); print $1,"Now max is "max}' file 取得文件第一个域的最大值。
awk '{print ($1>4 ? "high "$1: "low "$1)}' file

6、
awk '{$1 == 'Chi' {$3 = 'China'; print}' file 找到匹配行后先将第3个域替换后再显示该行（记录）。
awk '{$7 %= 3; print $7}' file 将第7域被3除，并将余数赋给第7域再打印。

7、
awk '/tom/ {wage=$2+$3; printf wage}' file 找到匹配行后为变量wage赋值并打印该变量。

8、
awk '/tom/ {count++;} END {print "tom was found "count" times"}' file #END表示在所有输入行处理完后进行处理。

9、awk 'gsub(/\$/,"");gsub(/,/,""); cost+=$4;END {print "The total is $" cost>"filename"}' file   gsub函数用空串替换$和,再将结果输出到filename中。
     1 2 3 $1,200.00
     1 2 3 $2,300.00
     1 2 3 $4,000.00

     awk '{gsub(/\$/,"");gsub(/,/,"");
     if ($4>1000&&$4<2000) c1+=$4;
     else if ($4>2000&&$4<3000) c2+=$4;
     else if ($4>3000&&$4<4000) c3+=$4;
     else c4+=$4; }
     END {printf   "c1=[%d];c2=[%d];c3=[%d];c4=[%d]\n",c1,c2,c3,c4}"' file
     通过if和else if完成条件语句

     awk '{gsub(/\$/,"");gsub(/,/,"");
     if ($4>3000&&$4<4000) exit;
     else c4+=$4; }
     END {printf   "c1=[%d];c2=[%d];c3=[%d];c4=[%d]\n",c1,c2,c3,c4}"' file
     通过exit在某条件时退出，但是仍执行END操作。
     awk '{gsub(/\$/,"");gsub(/,/,"");
     if ($4>3000) next;
     else c4+=$4; }
     END {printf   "c4=[%d]\n",c4}"' file
     通过next在某条件时跳过该行，对下一行执行操作。

10、awk '{ print FILENAME,$0 }' file1 file2 file3>fileall 把file1、file2、file3的文件内容全部写到fileall中，并前置文件名。

11、awk ' $1!=previous { close(previous); previous=$1 } {print substr($0,index($0," ") +1)>$1}' fileall 把合并后的文件重新分拆为3个文件。并与原文件一致。

12、awk 'BEGIN {"date"|getline d; print d}'          通过管道把date的执行结果送给getline，并赋给变量d，然后打印。

13、awk 'BEGIN {system("echo \"Input your name:\\c\""); getline d;print "\nYour name is",d,"\b!\n"}'
     通过getline命令交互输入name，并显示出来。
     awk 'BEGIN {FS=":"; while(getline< "/etc/passwd" >0) { if($1~"050[0-9]_") print $1}}'
     打印/etc/passwd文件中用户名包含050x_的用户名。

14、awk '{ i=1;while(i<NF) {print NF,$i;i++}}' file 通过while语句实现循环。
     awk '{ for(i=1;i<NF;i++) {print NF,$i}}'    file 通过for语句实现循环。
     type file|awk -F "/" '
     { for(i=1;i<NF;i++)
     { if(i==NF-1) { printf "%s",$i }
     else { printf "%s/",$i } }}'                显示一个文件的全路径。
     用for和if显示日期
     awk   'BEGIN {
for(j=1;j<=12;j++)
{ flag=0;
   printf "\n%d月份\n",j;
         for(i=1;i<=31;i++)
         {
         if (j==2&&i>28) flag=1;
         if ((j==4||j==6||j==9||j==11)&&i>30) flag=1;
         if (flag==0) {printf "%02d%02d ",j,i}
         }
}
}'

15、在awk中调用系统变量必须用单引号，如果是双引号，则表示字符串
Flag=abcd
awk '{print '$Flag'}'    结果为abcd
awk '{print   "$Flag"}'    结果为$Flag

Sed

sed 是一个精简的、非交互式的编辑器。它能执行与编辑vi和emacs相同的编辑任务。sed编辑器不提供交互使用方式：只能在命令行输入编辑命令、指定文件名，然后在屏幕上察看输出。sed编辑器没有破坏性。它不会修改文件，除非用shell重定向来保存输出结果。缺省情况下，所以的输出都被打印到屏幕上。
sed 编辑器在shell脚本中很有用，因为在shell脚本中使用像vi或emacs这类交互式编辑器，要求脚本用户精通该编辑器，而且还会导致用户对打开的文件做出不需要的修改。如果需要执行多项编辑任务，或是不想为shell命令行上的sed命令加引号，也可以把sed命令写在一个叫做sed脚本的文件里。记住，在命令行输入命令时，shell会设法转换命令中所有的元字符或空白。sed命令中凡是可能被shell解释的字符都必须加引号进行保护。
sed 是一种在线编辑器，它一次处理一行内容。处理时，把当前处理的行存储在临时缓冲区中，称为“模式空间”（pattern space），接着用sed命令处理缓冲区中的内容，处理完成后，把缓冲区的内容送往屏幕。接着处理下一行，这样不断重复，直到文件末尾。文件内容并没有改变，除非你使用重定向存储输出。Sed主要用来自动编辑一个或多个文件；简化对文件的反复操作；编写转换程序等。以下介绍的是Gnu版本的Sed 3.02。
1. 定址功能
可以通过定址来定位你所希望编辑的行，该地址用数字构成，用逗号分隔的两个行数表示以这两行为起止的行的范围（包括行数表示的那两行）。如1，3表示1，2，3行，美元符号($)表示最后一行。范围可以通过数据，正则表达式或者二者结合的方式确定。
2.sed命令调用格式
调用sed命令有两种形式：
   * sed [options] 'command' file(s)
   * sed [options] -f scrīptfile file(s)
a\ 在当前行后面加入一行文本。
b lable 分支到脚本中带有标记的地方，如果分支不存在则分支到脚本的末尾。
c\ 用新的文本改变本行的文本。
d 从模板块（Pattern space）位置删除行。
D 删除模板块的第一行。
i\ 在当前行上面插入文本。
h 拷贝模板块的内容到内存中的缓冲区。
H 追加模板块的内容到内存中的缓冲区。
g 获得内存缓冲区的内容，并替代当前模板块中的文本。
G 获得内存缓冲区的内容，并追加到当前模板块文本的后面。
l 列表不能打印字符的清单。
n 读取下一个输入行，用下一个命令处理新的行而不是用第一个命令。
N 追加下一个输入行到模板块后面并在二者间嵌入一个新行，改变当前行号码。
p 打印模板块的行。
P（大写）打印模板块的第一行。
q 退出Sed。
r file 从file中读行。
t label if分支，从最后一行开始，条件一旦满足或者T，t命令，将导致分支到带有标号的命令处，或者到脚本的末尾。
T label 错误分支，从最后一行开始，一旦发生错误或者T，t命令，将导致分支到带有标号的命令处，或者到脚本的末尾。
w file 写并追加模板块到file末尾。
W file 写并追加模板块的第一行到file末尾。
! 表示后面的命令对所有没有被选定的行发生作用。
s/re/string 用string替换正则表达式re。
= 打印当前行号码。
*把注释扩展到下一个换行符以前。
以下的是替换标记
       *     g表示行内全面替换。
       *     p表示打印行。
       *     w表示把行写入一个文件。
       *     x表示互换模板块中的文本和缓冲区中的文本。
       *     y表示把一个字符翻译为另外的字符（但是不用于正则表达式）
3. 选项 -e command, --expression=command
允许多台编辑。
-h, --help 打印帮助，并显示bug列表的地址。
-n, --quiet, --silent 取消默认输出。
-f, --filer=scrīpt-file 引导sed脚本文件名。
-V, --version 打印版本和版权信息。
4. 元字符集
^ 锚定行的开始如：/^sed/匹配所有以sed开头的行。
$ 锚定行的结束如：/sed$/匹配所有以sed结尾的行。
. 匹配一个非换行符的字符如：/s.d/匹配s后接一个任意字符，然后是d。
* 匹配零或多个字符如：/*sed/匹配所有模板是一个或多个空格后紧跟sed的行。
[] 匹配一个指定范围内的字符，如/[Ss]ed/匹配sed和Sed。
[^] 匹配一个不在指定范围内的字符，如：/[^A-RT-Z]ed/匹配不包含A-R和T-Z的一个字母开头，紧跟ed的行。
$..$ 保存匹配的字符，如s/$love$able/\1rs，loveable被替换成lovers。
& 保存搜索字符用来替换其他字符，如s/love/**&**/，love这成**love**。
\< 锚定单词的开始，如:/\<love/匹配包含以love开头的单词的行。
\> 锚定单词的结束，如/love\>/匹配包含以love结尾的单词的行。 x\{m\} 重复字符x，m次，如：/0\{5\}/匹配包含5个o的行。
x\{m,\} 重复字符x,至少m次，如：/o\{5,\}/匹配至少有5个o的行。 x\{m,n\} 重复字符x，至少m次，不多于n次，如：/o\{5,10\}/匹配5--10个o的行。
5. 实例
5.1删除：d命令
       *    $ sed '2d' example-----删除example文件的第二行。
       *    $ sed '2,$d' example-----删除example文件的第二行到末尾所有行。
       *    $ sed '$d' example-----删除example文件的最后一行。
       *    $ sed '/test/'d example-----删除example文件所有包含test的行。
5.2替换：s命令
       *    $ sed 's/test/mytest/g' example-----在整行范围内把test替换为mytest。如果没有g标记，则只有每行第一个匹配的test被替换成mytest。
       *    $ sed -n 's/^test/mytest/p' example-----(-n)选项和p标志一起使用表示只打印那些发生替换的行。也就是说，如果某一行开头的test被替换成mytest，就打印它。
       *    $ sed 's/^192.168.0.1/&localhost/' example-----&符号表示替换换字符串中被找到的部份。所有以192.168.0.1开头的行都会被替换成它自已加 localhost，变成192.168.0.1localhost。
       *    $ sed -n 's/$love$able/\1rs/p' example-----love被标记为1，所有loveable会被替换成lovers，而且替换的行会被打印出来。
       *    $ sed 's#10#100#g' example-----不论什么字符，紧跟着s命令的都被认为是新的分隔符，所以，“#”在这里是分隔符，代替了默认的“/”分隔符。表示把所有10替换成100。
5.3选定行的范围：逗号
       *    $ sed -n '/test/,/check/p' example-----所有在模板test和check所确定的范围内的行都被打印。
       *    $ sed -n '5,/^test/p' example-----打印从第五行开始到第一个包含以test开始的行之间的所有行。
       *    $ sed '/test/,/check/s/$/sed test/' example-----对于模板test和west之间的行，每行的末尾用字符串sed test替换。
5.4多点编辑：e命令
       *    $ sed -e '1,5d' -e 's/test/check/' example-----(-e)选项允许在同一行里执行多条命令。如例子所示，第一条命令删除1至5行，第二条命令用check替换test。命令的执行顺序对结果有影响。如果两个命令都是替换命令，那么第一个替换命令将影响第二个替换命令的结果。
       *    $ sed --expression='s/test/check/' --expression='/love/d' example-----一个比-e更好的命令是--expression。它能给sed表达式赋值。
5.5从文件读入：r命令
       *    $ sed '/test/r file' example-----file里的内容被读进来，显示在与test匹配的行后面，如果匹配多行，则file的内容将显示在所有匹配行的下面。
5.6写入文件：w命令
       *    $ sed -n '/test/w file' example-----在example中所有包含test的行都被写入file里。
5.7追加命令：a命令
       *    $ sed '/^test/a\\--->this is a example' example<-----'this is a example'被追加到以test开头的行后面，sed要求命令a后面有一个反斜杠。
5.8插入：i命令
   $ sed '/test/i\\
   new line
   -------------------------' example
   如果test被匹配，则把反斜杠后面的文本插入到匹配行的前面。
下一个：n命令
       *    $ sed '/test/{ n; s/aa/bb/; }' example-----如果test被匹配，则移动到匹配行的下一行，替换这一行的aa，变为bb，并打印该行，然后继续。
5.9变形：y命令
       *    $ sed '1,10y/abcde/ABCDE/' example-----把1--10行内所有abcde转变为大写，注意，正则表达式元字符不能使用这个命令。
5.10退出：q命令
       *    $ sed '10q' example-----打印完第10行后，退出sed。
5.11保持和获取：h命令和G命令
       *    $ sed -e '/test/h' -e '$G example-----在sed处理文件的时候，每一行都被保存在一个叫模式空间的临时缓冲区中，除非行被删除或者输出被取消，否则所有被处理的行都将打印在屏幕上。接着模式空间被清空，并存入新的一行等待处理。在这个例子里，匹配test的行被找到后，将存入模式空间，h命令将其复制并存入一个称为保持缓存区的特殊缓冲区内。第二条语句的意思是，当到达最后一行后，G命令取出保持缓冲区的行，然后把它放回模式空间中，且追加到现在已经存在于模式空间中的行的末尾。在这个例子中就是追加到最后一行。简单来说，任何包含test的行都被复制并追加到该文件的末尾。
5.12保持和互换：h命令和x命令
       *    $ sed -e '/test/h' -e '/check/x' example -----互换模式空间和保持缓冲区的内容。也就是把包含test与check的行互换。
6. 脚本