文章目录
- Shell(13)三剑客
- 前言
- 一、grep命令
- 二、sed命令
- 三、awk命令
Shell(13)三剑客
前言
Shell中最主要的三个命令grep、sed、awk,由于Linux中一切皆文件的性质,所以这三个命令在文本编辑方面拥有强大的功能,并广泛使用,被业内人称为"shell三剑客"。
一、grep命令
基本格式:grep [选项]… 查找条件 目标文件
选项 | 含义 |
-E | 开启扩展(Extend)的正则表达式 |
-c | 计算找到 ‘搜寻字符串’ 的次数 |
-i | 忽略大小写的不同,所以大小写视为相同 |
-o | 只显示被模式匹配到的字符串 |
-v | 反向选择,亦即显示出没有 ‘搜寻字符串’ 内容的那一行!(反向查找,输出与查找条件不相符的行) |
–color=auto | 可以将找到的关键词部分加上颜色的显示 |
-n | 输出行号 |
grep的扩展命令——egrep命令
grep 命令仅支持基础正则表达式,如果使用扩展正则表达式,需要使用 egrep 。egrep 命令与 grep 命令的用法基本相似。egrep 命令是一个搜索文件获得模式,使用该命令可以搜索文件中的任意字符串和符号,也可以搜索一个或多个文件的字符串,一个提示符可以是单个字符、一个字符串、一个字或一个句子。
示例:
egrep -n 'wo+d' test.txt #查询"wood" "woood" "woooooood"等字符串
egrep -n 'of|if|on' test.txt #查询"of"或者"if"或者"on"字符串
egrep -n 't(a|e)st' test.txt #“tast”与“test”因为这两个单词的“t”与“st”是重复的,所以将“a”与“e”列于“()”符号当中,并以“|”分隔,即可查询"tast"或者"test"字符串
egrep -n 'A(xyz)+C' test.txt #该命令是查询开头的"A"结尾是"C",中间有一个以上的"xyz"字符串的意思
二、sed命令
sed(Stream EDitor)是一个强大而简单的文本解析转换工具,可以读取文本,并根据指定的条件对文本内容进行编辑(删除、替换、添加、移动等),最后输出所有行或者仅输出处理的某些行。sed也可以在无交互的情况下实现相当复杂的文本处理操作,被广泛应用于Shell脚本中,用以完成各种自动化处理任务。默认情况下所有的 sed 命令都是在模式空间内执行的,因此输入的文件并不会发生任何变化,除非是用重定向存储输出。
sed 的工作流程主要包括读取、执行和显示三个过程。
·读取:sed 从输入流(文件、管道、标准输入)中读取一行内容并存储到临时的缓冲区中(又称模式空间,pattern space)。
·执行:默认情况下,所有的 sed 命令都在模式空间中顺序地执行,除非指定了行的地址,否则 sed 命令将会在所有的行上依次执行。
·显示:发送修改后的内容到输出流。在发送数据后,模式空间将会被清空。
在所有的文件内容都被处理完成之前,上述过程将重复执行,直至所有内容被处理完。
sed 命令常见用法
通常情况下调用 sed 命令有两种格式,如下所示。其中,“参数”是指操作的目标文件, 当存在多个操作对象时用,文件之间用逗号“,”分隔;而 scriptfile 表示脚本文件,需要用“-f” 选项指定,当脚本文件出现在目标文件之前时,表示通过指定的脚本文件来处理输入的目标文件。
基本格式:
sed [选项] '操作' 参数
sed [选项] -f scriptfile 参数
选项 | 含义 |
-e 或–expression | 表示用指定命令或者脚本来处理输入的文本文件 |
-f 或–file | 表示用指定的脚本文件来处理输入的文本文件 |
-h 或–help | 显示帮助 |
-n、–quiet 或 silent | 表示仅显示处理后的结果 |
-i | 直接编辑文本文件 |
-r或-E | 使用扩展正则表达式 |
-s | 将多个文件视为独立文件,而不是单个连续的长文件流 |
“操作”用于指定对文件操作的动作行为,也就是 sed 的命令。通常情况下是采用的“[n1,n2]”操作参数的格式。n1、n2 是可选的,代表选择进行操作的行数,如操作需要在 5~ 20 行之间进行,则表示为“5,20 动作行为”。常见的操作包括以下几种。
操作 | 含义 |
a | 增加,在当前行下面增加一行指定内容 |
c | 替换,将选定行替换为指定内容 |
d | 删除,删除选定的行 |
i | 插入,在选定行上面插入一行指定内容 |
p | 打印,如果同时指定行,表示打印指定行;如果不指定行,则表示打印所有内容;如果有非打印字符,则以 ASCII 码输出。其通常与“-n”选项一起使用 |
s | 替换,替换指定字符 |
y | 字符转换 |
示例:输出符合条件的文本(p 表示正常输出)
sed -n 'p' test.txt #输出所有内容,等同于 cat test.txt
sed -n '3p' test.txt #输出第 3 行
sed -n '3,5p' test.txt #输出 3~5 行
sed -n 'p;n' test.txt #输出所有奇数行,n 表示读入下一行资料
sed -n 'n;p' test.txt #输出所有偶数行,n 表示读入下一行资料
sed -n '1,5{p;n}' test.txt #输出第 1~5 行之间的奇数行(第 1、3、5 行)
sed -n '10,${n;p}' test.txt #输出第 10 行至文件尾之间的偶数行
在执行“sed -n‘10,${n;p}’test.txt”命令时,读取的第 1 行是文件的第 10 行,读取的第 2行是文件的第 11 行,依此类推,所以输出的偶数行是文件的第 11 行、13 行直至文件结尾, 其中包括空行。
以上是 sed 命令的基本用法,sed 命令结合正则表达式时,格式略有不同,正则表达式以“/”包围。例如,以下操作是 sed 命令与正则表达式结合使用的示例。
sed -n '/the/p' test.txt #输出包含the 的行
sed -n '4,/the/p' test.txt #输出从第 4 行至第一个包含 the 的行
sed -n '/the/=' test.txt #输出包含the 的行所在的行号,等号(=)用来输出行号
sed -n '/^PI/p' test.txt #输出以PI 开头的行
sed -n '/[0-9]$/p' test.txt #输出以数字结尾的行
sed -n '/\<wood\>/p' test.txt #输出包含单词wood 的行,\<、\>代表单词边界
示例:删除符合条件的文本(d)
sed '3d' #删除第 3 行
sed '3,5d' #删除第 3~5 行
sed '/cross/d' #删除包含 cross 的行,原本的第 8 行被删除;如果要删除不包含 cross 的行,用!符号表示取反操作, 如'/cross/!d'
sed '/^[a-z]/d' test.txt #删除以小写字母开头的行
sed '/\.$/d' test.txt #删除以"."结尾的行
sed '/^$/d' test.txt #删除所有空行,若是删除重复的空行,即连续的空行只保留一个
在使用 sed 命令进行替换操作时需要用到 s(字符串替换)、c(整行/整块替换)、y(字符转换)命令选项,常见的用法如下所示。
示例:替换符合条件的文本
sed 's/the/THE/' test.txt #将每行中的第一个the 替换为 THE
sed 's/l/L/2' test.txt #将每行中的第 2 个 l 替换为 L
sed 's/the/THE/g' test.txt #将文件中的所有the 替换为 THE
sed 's/o//g' test.txt #将文件中的所有o 删除(替换为空串)
sed 's/^/#/' test.txt #在每行行首插入#号
sed '/the/s/^/#/' test.txt #在包含the 的每行行首插入#号
sed 's/$/EOF/' test.txt #在每行行尾插入字符串EOF
sed '3,5s/the/THE/g' test.txt #将第 3~5 行中的所有 the 替换为 THE
sed '/the/s/o/O/g' test.txt #将包含the 的所有行中的 o 都替换为 O
迁移符合条件文本的参数:
参数 | 含义 |
H | 复制到剪贴板 |
g、G | 将剪贴板中的数据覆盖/追加至指定行 |
w | 保存为文件 |
r | 读取指定文件 |
a | 追加指定内容。具体操作方法如下所示 |
I、i | 忽略大小写 |
sed '/the/{H;d};$G' test.txt #将包含the 的行迁移至文件末尾,{;}用于多个操作
sed '1,5{H;d};17G' test.txt #将第 1~5 行内容转移至第 17 行后
sed '/the/w out.file' test.txt #将包含the 的行另存为文件 out.file
sed '/the/r /etc/hostname' test.txt #将文件/etc/hostname 的内容添加到包含 the 的每行以后
sed '3aNew' test.txt #在第 3 行后插入一个新行,内容为New
sed '/the/aNew' test.txt #在包含the 的每行后插入一个新行,内容为 New
sed '3aNew1\nNew2' test.txt #在第 3 行后插入多行内容,中间的\n 表示换行
三、awk命令
AWK 是一种处理文本文件的语言,是一个强大的文本分析工具。它是专门为文本处理设计的编程语言,也是行处理软件,通常用于扫描、过滤、统计汇总工作,数据可以来自标准输入也可以是管道或文件。
20世纪70年代诞生于贝尔实验室,现在centos7用的是gawk之所以叫 AWK 是因为其取了三位创始人 Alfred Aho,Peter Weinberger, 和 Brian Kernighan 的Family Name 的首字符。
工作原理:
逐行读取文本,默认以空格或tab键为分隔符进行分隔,将分隔所得的各个字段保存到内建变量中,并按模式或者条件执行编辑命令。
sed命令常用于一整行的处理,而awk比较倾向于将一行分成多个"“字段"然后再进行处理。awk信息的读入也是逐行读取的,执行结果可以通过print的功能将字段数据打印显示。在使用awk命令的过程中,可以使用逻辑操作符” &&“表示"与”、“||表示"或”、"!"表示非,还可以进行简单的数学运算,如+、一、*、/、%、^分别表示加、减、乘、除、取余和乘方。
命令格式:
awk选项'模式或条件{操作}'文件1文件2 ...
awk -f 脚本文件 文件1 文件2 ..
awk关键字 选项 命令部分 '{xxxx}' 文件名
awk 包含几个特殊的内建变量(可直接用)如下所示:
内建变量 | 含义 |
FS | 指定每行文本的字段分隔符,默认为空格或制表位 |
NF | 当前处理的行的字段个数 |
NR | 当前处理的行的行号(序数) |
$0 | 当前处理的行的整行内容 |
$n | 当前处理行的第 n 个字段(第 n 列) |
FILENAME | 被处理的文件名 |
RS | 行分隔符,数据记录分隔,默认为\n,即每行为一条记录 |
awk命令中逐行执行开始之前执行什么任务,结束之后再执行什么任务,则使用BEGIN、END
BEGIN:一般用来做初始化操作,仅在读取数据记录之前执行一次
END:一般用来做汇总操作,仅在读取完数据记录之后执行一次
awk的运算:
awk 'BEGIN{x=10;print x}' #如果不用引号awk就当作一个变量来输出了,所以不需要加$了
10
awk 'BEGIN{x=10;print x+1}' #BEGIN在处理文件之前,所以后面不跟文件名也不影响
11
awk 'BEGIN{print x+1}' #不指定初始值,初始值就为0,如果是字符串,则默认为空
1
awk -F: '$1~/root/' /etc/passwd #模糊匹配,用~表示包含,!~表示不包含
关于数值与字符串的比较:
比较符号:== != <= >= < >
awk 'NR==5{print}' /etc/passwd #打印第五行
其他内置变量的用法FS、OFS、NR、FNR、RS、ORS
awk 'BEGIN{FS=":"}{print $1}' pass.txt #在打印之前定义字段分隔符为冒号
awk 'BEGIN{FS=":";OFS="---"}{print $1,$2}' pass.txt #OFS定义了输出时以什么分隔,$1$2中间要用逗号分隔,因为逗号默认被映射为OFS变量,而这个变量默认是空格
awk '{print FNR,$0}' /etc/resolv.conf /etc/hosts #可以看出FNR的行号在追加当有多个文件时
awk 'BEGIN{RS=":"}{print $0}' /etc/passwd #RS:指定以什么为换行符,这里指定是冒号,你指定的肯定是原文里存在的字符
awk 'BEGIN{ORS=" "}{print $0}' /etc/passwd #把多行合并成一行输出,输出的时候自定义以空格分隔每行,本来默认的是回车键
END