[转帖]Shell编程之正则表达式与文本处理器（grep、sort、uniq、tr、cut）

转载

jinanxiaolaohu6 2024-01-10 11:51:44

正则表达式概念

REGEXP： Regular Expressions，由一类特殊字符及文本字符所编写的模式，其中有些字符（元字符）不表示字符字面意义，而表示控制或通配的功能，类似于增强版的通配符功能，但与通配符不同，通配符功能是用来处理文件名，而正则表达式是处理文本内容中字符。

正则表达式被很多程序和开发语言所广泛支持：vim, less,grep,sed,awk, nginx,mysql等

正则表达式的作用

主要用来匹配字符串（命令结果，文本内容）

通配符只用于匹配文件名、目录名等，不能用于匹配文件内容。（而且是已存在的文件或者目录）

通配符主要是为了方便用户对文件或者目录的描述，例如用户仅仅需要以".sh"结尾的文件时，使用通配符就能很方便地实现。
各个版本的shell都有通配符，这些通配符是一些特殊的字符，用户可以在命令行的参数中使用这些字符，进行文件名或者路径名的匹配。
shell将把与命令行中指定的匹配规则符合的所有文件名或者路径名作为命令的参数，然后执行这个命令。

*：通配符匹配任意一个或多个字符
ls *.txt

?：通配符
匹配一个任意字符
[root@localhost opt]# ls ?.txt

[] 通配符
[list] 匹配list中任意单个字符
ls [a-z].txt

元字符

. 匹配任意单个字符，可以是一个汉字
[] 匹配指定范围内的任意单个字符，示例：[dn] [0-9] [] [a-zA-Z] [:alpha:]
[^] 匹配指定范围外的任意单个字符,示例：[^dn] [^a.z]
[:alnum:] 字母和数字 [0-9] [a-z] [0-9] [a-z]
[:alpha:] 代表任何英文大小写字符，亦即 [A-Z], [a-z]
[:lower:] 小写字母,示例:[[:lower:]],相当于[a-z]
[:upper:] 大写字母 [A-Z]
[[:blank:]] 空白字符（空格和制表符）
[:space:] 包括空格、制表符(水平和垂直)、换行符、回车符等各种类型的空白,比[:blank:]包含的范围广
[:cntrl:] 不可打印的控制字符（退格、删除、警铃…）
[:digit:] 十进制数字
[:xdigit:]十六进制数字
[:graph:] 可打印的非空白字符
[:print:] 可打印字符
[:punct:] 标点符号
\w #匹配单词构成部分，等价于[[:alnum:]]
\W #匹配非单词构成部分，等价于[^[:alnum:]]
\S #匹配任何非空白字符。等价于 [^ \f\n\r\t\v]。
\s #匹配任何空白字符，包括空格、制表符、换页符等等。等价于 [ \f\n\r\t\v]。

元字符点（.）

[root@localhost ~]#ls /etc/|grep rc[.0-6]
ls /etc/命令会列出/etc/目录下的所有文件和子目录，
| 符号用于将其输出作为grep命令的输入。
grep命令使用正则表达式rc[.0-6]来匹配文件名中包含rc加数字（0-6）的文件或目录名，
其中方括号[]表示字符集，[.0-6]表示匹配.和0-6这些字符中的任意一个。
#此处的点代表字符

grep命令在文本中查找指定的字符串

grep [选项]… 查找条件目标文件

选项：

-m  # 匹配#次后停止
grep -m 1 root /etc/passwd   #多个匹配只取第一个
-v 显示不被pattern匹配到的行,即取反
grep -Ev '[[:space:]]*#|$' /etc/fstab
-i 忽略字符大小写  #可有可无

-n 显示匹配的行号

-c 统计匹配的行数

-o 仅显示匹配到的字符串

-q 静默模式，不输出任何信息

-A # after, 后#行 

-B # before, 前#行

-C # context, 前后各#行

-e 实现多个选项间的逻辑or关系,如：grep –e ‘cat ' -e ‘dog' file

-w 匹配整个单词

-E   使用ERE，相当于egrep，使用扩展正则

-F   不支持正则表达式

-f   file 根据模式文件，处理两个文件相同内容 把第一个文件作为匹配条件

-r   递归目录，但不处理软链接

-R   递归目录，但处理软链接

[转帖]Shell编程之正则表达式与文本处理器（grep、sort、uniq、tr、cut）_字段

[转帖]Shell编程之正则表达式与文本处理器（grep、sort、uniq、tr、cut）_字符串_02

[转帖]Shell编程之正则表达式与文本处理器（grep、sort、uniq、tr、cut）_正则表达式_03

[转帖]Shell编程之正则表达式与文本处理器（grep、sort、uniq、tr、cut）_正则表达式_04

[转帖]Shell编程之正则表达式与文本处理器（grep、sort、uniq、tr、cut）_字段_05

[转帖]Shell编程之正则表达式与文本处理器（grep、sort、uniq、tr、cut）_正则表达式_06

[转帖]Shell编程之正则表达式与文本处理器（grep、sort、uniq、tr、cut）_字段_07

[转帖]Shell编程之正则表达式与文本处理器（grep、sort、uniq、tr、cut）_字符串_08

[转帖]Shell编程之正则表达式与文本处理器（grep、sort、uniq、tr、cut）_字段_09

[转帖]Shell编程之正则表达式与文本处理器（grep、sort、uniq、tr、cut）_正则表达式_10

[转帖]Shell编程之正则表达式与文本处理器（grep、sort、uniq、tr、cut）_正则表达式_11

[转帖]Shell编程之正则表达式与文本处理器（grep、sort、uniq、tr、cut）_正则表达式_12

[转帖]Shell编程之正则表达式与文本处理器（grep、sort、uniq、tr、cut）_字段_13

[转帖]Shell编程之正则表达式与文本处理器（grep、sort、uniq、tr、cut）_字符串_14

[转帖]Shell编程之正则表达式与文本处理器（grep、sort、uniq、tr、cut）_字段_15

[转帖]Shell编程之正则表达式与文本处理器（grep、sort、uniq、tr、cut）_正则表达式_16

[转帖]Shell编程之正则表达式与文本处理器（grep、sort、uniq、tr、cut）_正则表达式_17

[转帖]Shell编程之正则表达式与文本处理器（grep、sort、uniq、tr、cut）_正则表达式_18

[转帖]Shell编程之正则表达式与文本处理器（grep、sort、uniq、tr、cut）_字段_19

[转帖]Shell编程之正则表达式与文本处理器（grep、sort、uniq、tr、cut）_字符串_20

表示次数
*  #匹配前面的字符任意次，包括0次，贪婪模式：尽可能长的匹配
.* #任意长度的任意字符,不包括0次,也就是匹配所有
\? #匹配其前面的字符出现0次或1次,即:可有可无
\+ #匹配其前面的字符出现最少1次,即:肯定有且 >=1 次
\{n\}   #匹配前面的字符=n次
\{m,n\} #匹配前面的字符至少m次，至多n次
\{,n\}  #匹配前面的字符至多n次,<=n 
\{n,\}  #匹配前面的字符至少n次

举例：

[转帖]Shell编程之正则表达式与文本处理器（grep、sort、uniq、tr、cut）_正则表达式_21

[转帖]Shell编程之正则表达式与文本处理器（grep、sort、uniq、tr、cut）_字符串_22

[转帖]Shell编程之正则表达式与文本处理器（grep、sort、uniq、tr、cut）_字符串_23

[转帖]Shell编程之正则表达式与文本处理器（grep、sort、uniq、tr、cut）_字段_24

[转帖]Shell编程之正则表达式与文本处理器（grep、sort、uniq、tr、cut）_字符串_25

[转帖]Shell编程之正则表达式与文本处理器（grep、sort、uniq、tr、cut）_字符串_26

[转帖]Shell编程之正则表达式与文本处理器（grep、sort、uniq、tr、cut）_字符串_27

[转帖]Shell编程之正则表达式与文本处理器（grep、sort、uniq、tr、cut）_字段_28

[转帖]Shell编程之正则表达式与文本处理器（grep、sort、uniq、tr、cut）_字符串_29

[转帖]Shell编程之正则表达式与文本处理器（grep、sort、uniq、tr、cut）_字段_30

sort命令排序

以行为单位对文件内容进行排序，也可以根据不同的数据类型来排序

语法格式：
sort 选项参数
cat file | sort 选项

常用选项：
-f：忽略大小写，默认会大写字母排在前面
-b：忽略每行前面的空格
-n：按照数字进行排序
-r：反向排序
-u：等同uniq，表示相同的数据仅显示一行，去重
-t：指定字段分隔符，默认使用tab键分隔
-k：指定排序字段
-o <输出文件>：将排序后的结果转存至指定文件

[转帖]Shell编程之正则表达式与文本处理器（grep、sort、uniq、tr、cut）_字符串_31

[转帖]Shell编程之正则表达式与文本处理器（grep、sort、uniq、tr、cut）_字段_32

[转帖]Shell编程之正则表达式与文本处理器（grep、sort、uniq、tr、cut）_字符串_33

[转帖]Shell编程之正则表达式与文本处理器（grep、sort、uniq、tr、cut）_正则表达式_34

uniq命令快捷去重

uniq命令用于报告或者忽略文件中连续的重复行，常与sort命令结合使用。

格式：
uniq [选项] 参数
cat 文件| uniq 选项
-c 统计连续重复的行的次数，并且合并重复的行
-u 显示仅出现一次的行（包括不连续的重复行）
-d 仅显示重复出现的行（必须是连续的重复行）

[转帖]Shell编程之正则表达式与文本处理器（grep、sort、uniq、tr、cut）_字符串_35

[转帖]Shell编程之正则表达式与文本处理器（grep、sort、uniq、tr、cut）_正则表达式_36

[转帖]Shell编程之正则表达式与文本处理器（grep、sort、uniq、tr、cut）_正则表达式_37

[转帖]Shell编程之正则表达式与文本处理器（grep、sort、uniq、tr、cut）_字段_38

[转帖]Shell编程之正则表达式与文本处理器（grep、sort、uniq、tr、cut）_字段_39

tr命令替换、压缩和删除

常用于对来自标准输入的字符进行替换、压缩和删除

语法格式：
tr 选项参数

常用选项：
-c：保留字符集1的字符，其他的字符（包括换行符\n）用字符集2替换
-d：删除所有属于字符集1的字符
-s：将重复出现的字符串压缩为一个字符串，用字符集2 替换字符集1
-t：字符集2 替换字符集1，不加也行

参数：

字符集1：
指定要转换或删除的原字符集。当执行转换操作时，
必须使用参数”字符集2“指定转换操作时，必须使用参数”字符集2“指定转换的目标字符集。
但执行删除操作时，不需要参数”字符集2“

字符集2：
指定要转换成的目标字符集

[转帖]Shell编程之正则表达式与文本处理器（grep、sort、uniq、tr、cut）_字段_40

[转帖]Shell编程之正则表达式与文本处理器（grep、sort、uniq、tr、cut）_字段_41

[转帖]Shell编程之正则表达式与文本处理器（grep、sort、uniq、tr、cut）_字符串_42

[转帖]Shell编程之正则表达式与文本处理器（grep、sort、uniq、tr、cut）_字符串_43

[转帖]Shell编程之正则表达式与文本处理器（grep、sort、uniq、tr、cut）_字符串_44

[转帖]Shell编程之正则表达式与文本处理器（grep、sort、uniq、tr、cut）_正则表达式_45

cut命令快速裁剪命令

expr substr 截取方法

[转帖]Shell编程之正则表达式与文本处理器（grep、sort、uniq、tr、cut）_正则表达式_46

cut截取方法

对字段进行截取和剪裁
格式：
格式一：cut [选项] 参数
格式二：cat file | cut [选项]

-d 指定分隔符（默认分隔符为Tab）
-f 按字段进行截取。指定第n个字段；
-b 以字节为单位进行截取
-c 以字符为单位进行截取
–complement 排除所指定的字段
–output-delimiter 更改输出内容的分隔符

[转帖]Shell编程之正则表达式与文本处理器（grep、sort、uniq、tr、cut）_正则表达式_47

[转帖]Shell编程之正则表达式与文本处理器（grep、sort、uniq、tr、cut）_正则表达式_48

[转帖]Shell编程之正则表达式与文本处理器（grep、sort、uniq、tr、cut）_字段_49

split命令文件拆分

split命令用于在Linux下将大文件拆分为若干小文件。

格式：split 选项参数原始文件拆分后文件名前缀
-l 指定行数
-b 指定文件的大小

[转帖]Shell编程之正则表达式与文本处理器（grep、sort、uniq、tr、cut）_字符串_50

[转帖]Shell编程之正则表达式与文本处理器（grep、sort、uniq、tr、cut）_字符串_51

paste命令文件合并

按照字段来进行文件的合并
格式：

paste [选项] 文件1 文件2
-d 用于指定文件的分隔符（默认情况下为制表符"\n"）
-s 将列和行的内容进行互相交换

重点：paste a b和cat a b 之间的区别？
cat 是上下合并，paste 是左右拼接

面试题统计当前主机的连接状态

[转帖]Shell编程之正则表达式与文本处理器（grep、sort、uniq、tr、cut）_字符串_52

统计当前连接主机数

[转帖]Shell编程之正则表达式与文本处理器（grep、sort、uniq、tr、cut）_正则表达式_53

eval变量扫描器

命令字前加上eval，shell会在执行命令之前扫描它两次，eval命令首先会先扫描命令行进行所有的置换，然后再执行命令，该命令适用于那些一次扫描无法实现功能的变量，该命令会对变量进行两次扫描。

脚本运用测试：

#!/bin/bash
#这是一个验证eval扫描的脚本
a=100
b=a
echo  "普通echo输出的变量b的值为:"  </span>$$b
eval echo "经过eval扫描输出变量b的值为:" </span>$$b

[转帖]Shell编程之正则表达式与文本处理器（grep、sort、uniq、tr、cut）_正则表达式_54

位置锚定

^ #行首锚定, 用于模式的最左侧
$ #行尾锚定，用于模式的最右侧
^root$    #用于模式匹配整行 （单独一行  只有root）
^$ #空行
^[[:space:]]*$ #空白行

< 或 \b #词首锚定，用于单词模式的左侧(连续的数字，字母，下划线都算单词内部)

> 或 \b #词尾锚定，用于单词模式的右侧

<root> #匹配整个单词

[转帖]Shell编程之正则表达式与文本处理器（grep、sort、uniq、tr、cut）_字段_55

[转帖]Shell编程之正则表达式与文本处理器（grep、sort、uniq、tr、cut）_字段_56

[转帖]Shell编程之正则表达式与文本处理器（grep、sort、uniq、tr、cut）_字段_57

分组或其他

分组：() 将多个字符捆绑在一起，当作一个整体处理
或者：\ |

[转帖]Shell编程之正则表达式与文本处理器（grep、sort、uniq、tr、cut）_字符串_58

扩展正则表达式

表示字符相差不大

grep -E 必须用 sed -r
或者
egrep

表示次数

*   匹配前面字符任意次
?   0或1次
+   1次或多次
{n} 匹配n次
{m,n} 至少m，至多n次
{,n}  #匹配前面的字符至多n次,<=n，n可以为0
{n,}  #匹配前面的字符至少n次,<=n，n可以为0

表示分组

() 分组
分组：() 将多个字符捆绑在一起，当作一个整体处理，如：(root)
| 或者
a|b #a或b
C|cat #C或cat
(C|c)at #Cat或cat

[转帖]Shell编程之正则表达式与文本处理器（grep、sort、uniq、tr、cut）_正则表达式_59

[转帖]Shell编程之正则表达式与文本处理器（grep、sort、uniq、tr、cut）_字符串_60

[转帖]Shell编程之正则表达式与文本处理器（grep、sort、uniq、tr、cut）_字符串_61

[转帖]Shell编程之正则表达式与文本处理器（grep、sort、uniq、tr、cut）_正则表达式_62

上一篇：[转帖]为什么说：善战者无赫赫之功，善医者无煌煌之名，原来如此

下一篇：[转帖]删除分区如何不让全局索引失效？

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯