1. 1抽取文本的工具 文件内容:less和 cat 文件截取:head和tail 按列抽取:cut 按关键字抽取:grep

1.2文件查看 文件查看命令: cat,tac,rev cat [OPTION]... [FILE]... -E: 显示行结束符$ -n: 对显示出的每一行进行编号 -A:显示所有控制符 -b:非空行编号 -s:压缩连续的空行成一行 tac rev

1.3分页查看文件内容 more: 分页查看文件 more [OPTIONS...] FILE... -d: 显示翻页及退出提示 less:一页一页地查看文件或STDIN输出 查看时有用的命令包括: /文本 搜索 文本 n/N 跳到下一个 或 上一个匹配 less 命令是man命令使用的分页器

1.4按列抽取文本cut和合并文件paste cut [OPTION]... [FILE]... -d DELIMITER: 指明分隔符,默认tab -f FILEDS: #: 第#个字段 #,#[,#]:离散的多个字段,例如1,3,6 #-#:连续的多个字段, 例如1-6 混合使用:1-3,7 -c 按字符切割 --output-delimiter=STRING指定输出分隔符

1.5分析文本的工具 文本数据统计:wc 整理文本:sort 比较文件:diff和patch

1.6uniq uniq命令:从输入中删除前后相接的重复的行 uniq [OPTION]... [FILE]... -c: 显示每行重复出现的次数 -d: 仅显示重复过的行 -u: 仅显示不曾重复的行 注:连续且完全相同方为重复 常和sort 命令一起配合使用: sort userlist.txt | uniq -c

2Linux文本处理三剑客 grep:文本过滤(模式:pattern)工具 grep, egrep, fgrep(不支持正则表达式搜索) sed:stream editor,文本编辑工具 awk:Linux上的实现gawk,文本报告生成器

正则表达式 REGEXP:由一类特殊字符及文本字符所编写的模式,其中有些字符(元字符)不表示字符字面意义,而表示控制或通配的功能 程序支持:grep,sed,awk,vim, less,nginx,varnish等 分两类: 基本正则表达式:BRE 扩展正则表达式:ERE grep -E, egrep 正则表达式引擎: 采用不同算法,检查处理正则表达式的软件模块 PCRE(Perl Compatible Regular Expressions) 元字符分类:字符匹配、匹配次数、位置锚定、分组 man 7 regex 字符匹配: . 匹配任意单个字符 [] 匹配指定范围内的任意单个字符 [^] 匹配指定范围外的任意单个字符 [:alnum:] 字母和数字 [:alpha:] 代表任何英文大小写字符,亦即 A-Z, a-z [:lower:] 小写字母 [:upper:] 大写字母 [:blank:] 空白字符(空格和制表符) [:space:] 水平和垂直的空白字符(比[:blank:]包含的范围广) [:cntrl:] 不可打印的控制字符(退格、删除、警铃...) [:digit:] 十进制数字 [:xdigit:]十六进制数字 [:graph:] 可打印的非空白字符 [:print:] 可打印字符 [:punct:] 标点符号 匹配次数:用在要指定次数的字符后面,用于指定前面的字符要出现的次数 * 匹配前面的字符任意次,包括0次 贪婪模式:尽可能长的匹配 .* 任意长度的任意字符 ? 匹配其前面的字符0或1次 + 匹配其前面的字符至少1次 {n} 匹配前面的字符n次 {m,n} 匹配前面的字符至少m次,至多n次 {,n} 匹配前面的字符至多n次 {n,} 匹配前面的字符至少n次 位置锚定:定位出现的位置 ^ 行首锚定,用于模式的最左侧 $ 行尾锚定,用于模式的最右侧 ^PATTERN$ 用于模式匹配整行 ^$ 空行 ^[[:space:]]$ 空白行 < 或 \b 词首锚定,用于单词模式的左侧 > 或 \b 词尾锚定;用于单词模式的右侧 <PATTERN> 匹配整个单词 分组:() 将一个或多个字符捆绑在一起,当作一个整体进行处理,如:(root)+ 分组括号中的模式匹配到的内容会被正则表达式引擎记录于内部的变量中,这些变量的命名方式为: \1, \2, \3, ... \1 表示从左侧起第一个左括号以及与之匹配右括号之间的模式所匹配到的字符 示例: (string1+(string2)) \1 :string1+(string2)* \2 :string2 后向引用:引用前面的分组括号中的模式所匹配字符,而非模式本身 或者:| 示例:a|b: a或b C|cat: C或cat (C|c)at:Cat或cat

2 vim vim:一个模式编辑器 击键行为是依赖于 vim的 的“模式” 三种主要模式: 命令(Normal)模式:默认模式,移动光标,剪切/粘贴文本 插入(Insert)或编辑模式: 修改文本 扩展命令(extended command )模式: 保存,退出等 Esc键 退出当前模式 Esc键 Esc键 总是返回到命令模式

3 处理文本的工具sed 用法: sed [option]... 'script' inputfile... 常用选项: -n:不输出模式空间内容到屏幕,即不自动打印 -e: 多点编辑 -f:/PATH/SCRIPT_FILE: 从指定文件中读取编辑脚本 -r: 支持使用扩展正则表达式 -i.bak: 备份文件并原处编辑 script: '地址命令'

4 awk语言 基本格式:awk [options] 'program' file… program:pattern{action statements;..} pattern和action: pattern部分决定动作语句何时触发及触发事件 BEGIN,END action statements对数据进行处理,放在{}内指明 print, printf 分割符、域和记录 awk执行时,由分隔符分隔的字段(域)标记$1,$2..$n称为域标识。$0为所有域,注意:和shell中变量$符含义不同 文件的每一行称为记录 省略action,则默认执行 print $0 的操作 print格式: print item1, item2, ... 要点: (1) 逗号分隔符 (2) 输出的各item可以字符串,也可以是数值;当前记录的字段、变量或awk的表达式 (3) 如省略item,相当于print $0 示例: awk '{print "hello,awk"}' awk –F: '{print}' /etc/passwd awk –F: ‘{print “wang”}’ /etc/passwd awk –F: ‘{print $1}’ /etc/passwd awk –F: ‘{print $0}’ /etc/passwd awk –F: ‘{print $1”\t”$3}’ /etc/passwd tail –3 /etc/fstab |awk ‘{print $2,$4}’