Linux学习10 查找文件命令

一、​​find​​ 查找命令

# 在目录下查找文件并打印路径,子目录也会查找
find /home/test -name test.sh -print

命令选项:

  • ​-name​​ 按照文件名查找
  • ​-perm​​ 按照文件权限来查找文件
  • ​-prune​​ 不在当前指定的目录查找。如果同时使用了-depth,那-prune会被忽略
  • ​-user​​ 按文件属主来查找文件
  • ​-group​​ 按所属组来查找文件
  • ​-mtime -n +n​​ 按照文件更改时间来查找文件
  • ​-nogroup​​ 查找无有效所属组的文件,即在该所属组在/etc/groups中不存在
  • ​-nouser​​ 查找无有效属主的文件,即该文件的属主在/etc/passwd中不存在
  • ​-newer file1 !file2​​ 查找更改时间比file1新但比file2老的文件
  • ​-type​​ 查找某一类型的文件
  • ​-size n[c]​​查找文件工度为n块的文件,带有c时表示文件长度以字节计算
  • ​-depth​​ 在查找文件地,首先查找当前目录中的文件,然后在其子目录中查找。
  • ​-fstype​​ 查找位于某一类型雇佣系统中的文件
  • ​-mount​​ 在查找文件地不跨越文件系统mount点
  • ​-cpio​​ 对匹配的文件使用cpio命令,将这些文件备份到磁带设备中
# 模糊搜索,在$HOME目录下查找后缀txt的文件
find ~ -name "*.txt" -print
# 使用正则表达式,查找当前目录及子目录里大写开头的文件
find . -name "[A-Z]*" -print
# 在/etc里找host开头的文件
find /etc -name "host*" -print
# 查找两个小写字母开头,后跟两个数字的文件
find . -name "[a-z][a-z][0-9][0-9].txt" -print
# 当前目录下找权限为755的文件
find . -perm 755 -print
# 忽略/apps/bin目录进行查找
find /apps -name "/apps/bin" -prune -o -print
# 用ls -l 列出所找到的文件
find . -type f -exec ls -l {} \;
# 删除5天前的日志
find . -name "*.LOG" -mtime +5 -ok rm {} \;
find /home/hap/src/* -name "*.o" -exec rm {} \;

# 使用xargs
# 用grep命令在所有的普通文件中搜索device单词
find / -type f -print | xargs grep "device"
# 查找大文件
find . -type -size +200M
# 查找大于400M的文件
find . -type f -size +400M -print0 | xargs -0 du -h

二、文本搜索工具 ​​grep​​

全称是 ​​Global Regular Expression Print​​​,使用正则表达式搜索文本。
命令格式: ​​​grep [options]​​ 主要参数:

  • ​-a或--text​​ 不要忽略二进制的数据。
  • ​-A<显示列数>或--after-context=<显示列数>​​ 显示搜索到的那列和该列之后的内容。
  • ​-b或--byte-offset​​ 在显示符合范本样式的那一列之前,标示出该列第一个字符的位编号。
  • ​-B<显示列数>或--before-context=<显示列数>​​ 显示搜索到的列和该列之前的内容。
  • ​-c或--count​​ 计算符合范本样式的列数。
  • ​-C<显示列数>或--context=<显示列数>或-<显示列数>​​ 除了显示符合范本样式的那一列之外,并显示该列之前后的内容。
  • ​-d<进行动作>或--directories=<进行动作>​​ 当指定要查找的是目录而非文件时,必须使用这项参数,否则grep指令将回报信息并停止动作。
  • ​-e<范本样式>或--regexp=<范本样式>​​ 指定字符串做为查找文件内容的范本样式。
  • ​-E或--extended-regexp​​ 将范本样式为延伸的普通表示法来使用。
  • ​-f<范本文件>或--file=<范本文件>​​ 指定范本文件,其内容含有一个或多个范本样式,让grep查找符合范本条件的文件内容,格式为每列一个范本样式。
  • ​-F或--fixed-regexp​​ 将范本样式视为固定字符串的列表。
  • ​-G或--basic-regexp​​ 将范本样式视为普通的表示法来使用。
  • ​-h或--no-filename​​ 在显示符合范本样式的那一列之前,不标示该列所属的文件名称。
  • ​-H或--with-filename​​ 在显示符合范本样式的那一列之前,表示该列所属的文件名称。
  • ​-i或--ignore-case​​ 忽略字符大小写的差别。
  • ​-l或--file-with-matches​​ 列出文件内容符合指定的范本样式的文件名称。
  • ​-L或--files-without-match​​ 列出文件内容不符合指定的范本样式的文件名称。
  • ​-n或--line-number​​ 在显示符合范本样式的那一列之前,标示出该列的列数编号。
  • ​-q或--quiet或--silent​​ 不显示任何信息。
  • ​-r或--recursive​​ 此参数的效果和指定“-d recurse”参数相同。
  • ​-s或--no-messages​​ 不显示错误信息。
  • ​-v或--revert-match​​ 反转查找。
  • ​-V或--version​​ 显示版本信息。
  • ​-w或--word-regexp​​ 只显示全字符合的列。
  • ​-x或--line-regexp​​ 只显示全列符合的列。
  • ​-y​​ 此参数的效果和指定“-i”参数相同。
  • ​--help​​ 在线帮助。
  • ​--color=auto​​ 将搜索到的内容标上颜色。

​pattern​​ 正则表达式主要参数:

  • ​\​​ :忽略正则表达式中特殊字符的原有含义。
  • ​^​​:匹配正则表达式的开始行。
  • ​$​​ :匹配正则表达式的结束行。
  • ​\<​​:从匹配正则表达 式的行开始。
  • ​\>​​:到匹配正则表达式的行结束。
  • ​[ ]​​​:单个字符,如​​[A]​​即A符合要求 。
  • ​[ - ]​​:范围,如[A-Z],即A、B、C一直到Z都符合要求 。
  • ​.​​:所有的单个字符。
  • ​*​​ :有字符,长度可以为0。

示例

# 从.txt文件中查找包含'a'字符串的文本文件
grep 'a' *.txt --color=auto
# 搜索包含连续4个字符的文件
grep '[a-z]\{4\}' *.txt

三 、 ​​sed​​ 从文件中查找

​sed​​ 是利用脚本来处理文本文件,可以自动编辑一个或多个文件,简化重复操作。

命令格式
​​​sed [-nefr] [操作]​

参数说明

  • ​-e<script>或--expression=<script>​​ 以选项中指定的script来处理输入的文本文件。
  • ​-f<script文件>或--file=<script文件>​​ 以选项中指定的script文件来处理输入的文本文件。
  • ​-h或--help​​ 显示帮助。
  • ​-n或--quiet或--silent​​ 仅显示script处理后的结果。
  • ​-V或--version​​ 显示版本信息。

动作说明

  • ​a​​ :新增, a 的后面可以接字串,而这些字串会在新的一行出现(目前的下一行)~
  • ​c​​ :取代, c 的后面可以接字串,这些字串可以取代 n1,n2 之间的行!
  • ​d​​ :删除,因为是删除啊,所以 d 后面通常不接任何咚咚;
  • ​i​​ :插入, i 的后面可以接字串,而这些字串会在新的一行出现(目前的上一行);
  • ​p​​ :打印,亦即将某个选择的数据印出。通常 p 会与参数 sed -n 一起运行~
  • ​s​​:取代,可以直接进行取代的工作哩!通常这个 s 的动作可以搭配正规表示法!例如 1,20s/old/new/g 就是啦!
sed -n '2p' sed.txt 打印第2行
sed -n '1,3p' sed.txt 打印1~3行
sed -n '1,3p' sed.txt >sed.tmp 1~3行输出到sed.tmp文件里
sed -n '1,$p' sed.txt 显示全文
sed -n '1p' sed.txt 打印首行
sed -n '$p' sed.txt 打印最后一行
sed '2p' sed.txt 输出全部文本,然后输出第2行
sed -n '/should/'p sed.txt 查找should的行
sed -n '/should/=' sed.txt 输出匹配的行号
sed -n '/\./'p sed.txt 特殊字符查询,需要\进行转义
sed '1,3d' sed.txt 删除1~3行
sed '/should/d' sed.txt 删除包含should的行
sed 's/PS/ps/' sed.txt 替换每行第一个单词
sed 's/PS/ps/g' sed.txt 全文替换
sed '1,3 s/should/SHOULD/g' sed.txt 指定行替换
sed '1 s/should/SHOULD/g' sed.txt 指定行范围替换
控制字符输入方式:
^M
1.Ctrl+v
2.M
3.释放Ctrl

四、​​awk​​

与​​sed​​​ 相比, ​​awk​​ 倾向于一行中分成数个字段来处理,适合处理小型的文本数据。

​awk​​处理过程: 依次对每一行进行处理,然后输出

​awk​​命令样式

  • ​awk [-F|-f|-v] ‘BEGIN{} //{command1; command2} END{}’ file​
  • ​[-F|-f|-v]​​ 大参数,-F指定分隔符,-f调用脚本,-v定义变量 var=value
  • ​' '​​ 引用代码块
  • ​BEGIN​​ 初始化代码块,在对每一行进行处理之前,初始化代码,主要是引用全局变量,设置FS分隔符
  • ​//​​ 匹配代码块,可以是字符串或正则表达式
  • ​{}​​ 命令代码块,包含一条或多条命令
  • ​;​​ 多条命令使用分号分隔
  • ​END​​ 结尾代码块,在对每一行进行处理之后再执行的代码块,主要是进行最终计算或输出结尾摘要信息。

特殊要点:

  • ​$0​​ 表示整个当前行
  • ​$1​​ 每行第一个字段
  • ​NF​​ 字段数量变量
  • ​NR​​ 每行的记录号,多文件记录递增
  • ​FNR​​ 与NR类似,不过多文件记录不递增,每个文件都从1开始
  • ​\t​​ 制表符
  • ​\n​​ 换行符
  • ​FS​​ BEGIN时定义分隔符
  • ​RS​​ 输入的记录分隔符, 默认为换行符(即文本是按一行一行输入)
  • ​~​​ 匹配,与==相比不是精确比较
  • ​!~​​ 不匹配,不精确比较
  • ​==​​ 等于,必须全部相等,精确比较
  • ​!=​​ 不等于,精确比较
  • ​&&​​  逻辑与
  • ​||​​ 逻辑或
  • ​+​​ 匹配时表示1个或1个以上
  • ​/[0-9][0-9]+/​​ 两个或两个以上数字
  • ​/[0-9][0-9]*/​​ 一个或一个以上数字
  • ​FILENAME​​ 文件名
  • ​OFS​​ 输出字段分隔符, 默认也是空格,可以改为制表符等
  • ​ORS​​ 输出的记录分隔符,默认为换行符,即处理结果也是一行一行输出到屏幕
  • ​-F'[:#/]'​​ 定义三个分隔符

五、文件比较​​diff​​

​diff [选项] <参数>​​ 常用命令选项:

  • ​-<行数>​​:指定要显示多少行的文本。此参数必须与-c或-u参数一并使用;
  • ​-a或--text​​:diff预设只会逐行比较文本文件;
  • ​-b或--ignore-space-change​​:不检查空格字符的不同;
  • ​-B或--ignore-blank-lines​​:不检查空白行;
  • ​-c​​:显示全部内容,并标出不同之处;
  • ​-C<行数>或--context<行数>​​:与执行“-c-<行数>”指令相同;
  • ​-d或--minimal​​:使用不同的演算法,以小的单位来做比较;
  • ​-D<巨集名称>或ifdef<巨集名称>​​:此参数的输出格式可用于前置处理器巨集;
  • ​-e或--ed​​:此参数的输出格式可用于ed的script文件;
  • ​-f或-forward-ed​​:输出的格式类似ed的script文件,但按照原来文件的顺序来显示不同处;
  • ​-H或--speed-large-files​​:比较大文件时,可加快速度;
  • ​-l<字符或字符串>或--ignore-matching-lines<字符或字符串>​​:若两个文件在某几行有所不同,而之际航同时都包含了选项中指定的字符或字符串,则不显示这两个文件的差异;
  • ​-i或--ignore-case​​:不检查大小写的不同;
  • ​-l或--paginate​​:将结果交由pr程序来分页;
  • ​-n或--rcs​​:将比较结果以RCS的格式来显示;
  • ​-N或--new-file​​:在比较目录时,若文件A仅出现在某个目录中,预设会显示:Only in目录,文件A 若使用-N参数,则diff会将文件A 与一个空白的文件比较;
  • ​-p​​:若比较的文件为C语言的程序码文件时,显示差异所在的函数名称;
  • ​-P或--unidirectional-new-file​​:与-N类似,但只有当第二个目录包含了第一个目录所没有的文件时,才会将这个文件与空白的文件做比较;
  • ​-q或--brief​​:仅显示有无差异,不显示详细的信息;
  • ​-r或——recursive​​:比较子目录中的文件;
  • ​-s或--report-identical-files​​:若没有发现任何差异,仍然显示信息;
  • ​-S<文件>或--starting-file<文件>​​:在比较目录时,从指定的文件开始比较;
  • ​-t或--expand-tabs​​:在输出时,将tab字符展开;
  • ​-T或--initial-tab​​:在每行前面加上tab字符以便对齐;
  • ​-u,-U<列数>或--unified=<列数>​​:以合并的方式来显示文件内容的不同;
  • ​-v或--version​​:显示版本信息;
  • ​-w或--ignore-all-space​​:忽略全部的空格字符;
  • ​-W<宽度>或--width<宽度>​​:在使用-y参数时,指定栏宽;
  • ​-x<文件名或目录>或--exclude<文件名或目录>​​:不比较选项中所指定的文件或目录;
  • ​-X<文件>或--exclude-from<文件>​​;您可以将文件或目录类型存成文本文件,然后在=<文件>中指定此文本文件;
  • ​-y或--side-by-side​​:以并列的方式显示文件的异同之处;
  • ​--help​​:显示帮助;
  • ​--left-column​​:在使用-y参数时,若两个文件某一行内容相同,则仅在左侧的栏位显示该行内容;
  • ​--suppress-common-lines​​:在使用-y参数时,仅显示不同之处。
# 最简单的用法
diff file1 file2
# 并排格式输出
diff file1 file2 -y -W 50

另外 ​​cmp​​​命令也可以进行文件比较。
由于现在可视化工具很多,这些命令很多人日常工作中其实很少会用到;
在文件处理方面现在脚本语言​​​Python​​等用来作文件处理也更方便。