shell之sort，uniq，cut，tr

原创

wx62aaee4be59a4 2022-06-17 06:57:38 ©著作权

©著作权归作者所有：来自51CTO博客作者wx62aaee4be59a4的原创作品，请联系作者获取转载授权，否则将追究法律责任

# sort主要是要理解域

# sort选项
-c  测试文件是否已经分类
-m  合并两个分类文件
-u  删除所有复制行
-o  存储sort结果的输出文件名
-b  使用域进行分类时，忽略第一个空格
-n  指定分类是域上的数字分类
-t  域分隔符;用非空格或tab键分隔域
-r  对分类次序或比较求逆，意思就是将得到的结果倒序排序
-k  指定分类键(域)
post1 传递到m,n。m为域号，n为开始分类字符数;例如4,6意即以第5域分类，从第7个字符开始

# sort对域的参照方式
关于sort的一个重要事实是它参照第一个域作为域0，域1是第二个域，等等。sort也可以使用整行作为分类依据。

# 示例，将/etc/passwd文件按第三域(域2)分类
因为第三域是数值，所以分类时候要加上n
sort -t: -k 3n /etc/passwd

# 指定分类键次序，先以第4域，在以第一域分类并求逆
sort -t: -r -k4 -k1 /etc/passwd


# uniq用法
unip用来从一个文本文件中去除或禁止重复行。一般uniq假定文件已分类，并且结果正确。我们并不强制要求这样做，如果愿意，可以使用任何非排序文本，甚至是无规律行。可以认为uniq有点像sort命令中唯一性选项。对，在某种程序上讲正是如此，但两者又一个重要区别。sort的唯一性选项去除所有重复行，而uniq命令并不这样做。重复行是什么？在uniq里意即持续不断重复出现的行，中间不夹杂任何其它文本，示例
>>> cat myfile.txt
May Day
May Day
May Day
Going Down
May Day
uniq将前三个May Day看作重复副本，但是因为第4行有不同的文本，故不认为第五行持续的May Day为其副本。uniq将保留这一行
# 命令格式
uniq -u d c -f inputfile outputfile
-u  只显示不重复行
-d  只显示有重复数据行，每种重复行只显示其中一行
-c  打印每一重复行出现次数
-n  n为数字，前n个域被忽略


# cut用法
cut用来从标准输入或文本文件中剪切列或域。剪切文本可以将之粘贴到一个文本文件。
## 命令格式
cut [options] file1 file2
## 选项
-c list   指定剪切字符数
-f field  指定剪切域数
-d  指定与空格和tab键不同的域分隔符
-c  用来指定剪切范围，如：-c1, 5-7剪切第一个字符，然后是第5到第7给字符。-c1-50剪切前50个字符
-f  格式与-c相同
-f1, 5剪切第1域，第5域
-f1, 10-12 剪切第1域，第10域到第12域

# 示例使用域分隔符,以冒号为分隔域，并剪切第3域
cut -d: -f3 /etc/passwd


# tr用来从标准输入中通过替换或删除操作进行字符转换。tr主要用于删除文件中控制字符或进行字符转换。使用tr时要转换两个字符串：字符串1用于查询，字符串2用于处理各种转换。tr刚执行时，字符串1中的字符被映射到字符串2中的字符，然后转换操作开始

# 选项
-c  用字符串1中字符集的补集替换此字符集，要求字符集为ASCII
-d  删除字符串1中所有输入字符
-s  删除所有重复出现字符序列，只保留第一个；即将重复出现字符串压缩为一个字符串

# 去除重复出现的字符
tr -s "[a=z]"< /etc/passwd
# 删除空行
tr -s "[\012]" < plane.txt
tf -s ["\n"] < plane.txt