说明:

awk被设计用于数据流,能够对列和行进行操作。而sed更多的是匹配,进行替换和删除。
awk有很多内建的功能,比如数组,函数等。灵活性是awk的最大优势。 

awk的结构
awk '
BEGIN{ print "start"} 
pattern { commands } 
END{ print "end"}'
file
为了偏于观看,我打了回车,实际上是一行


一个awk脚本通常是3部分
1. BEGIN语句块
2. 能够使用模式匹配的通用语句块
3. END语句块
他们任何一部分都可以不出现在脚本中。脚本通常包含在双引号或者单引号内。
例如:


  1. awk 'BEGIN{i=0}{i++}END{print i}' filename  


工作原理

awk命令的工作方式如下:

1. 执行BEGIN{commands}语句块中的语句

2. 从文件或者stdin中读取一行,然后执行pattern{commands}. 迭代直到全部读取完毕

3. 最后执行END{commands}语句块

再次提醒,他们任何一部都可以没有

而awk的功能也远不止如此


入门实例:


1. echo | awk '{var1="v1";var2="v2";var3="v3"; print var1,var2,var3;}'  
2. 打印: v1 v2 v3


解释:逗号为定界符(分隔符)

1. echo | awk '{var1="v1";var2="v2";var3="v3"; print var1"-"var2"-"var3;}'


打印v1-v2-v3

解释:双引号为连接符

其他任何符号,都不能正常输出v1,v2,v3



部分特殊变量:

NR:

NF:表示字段数量,在执行过程中对应于当前行的字段数

$0:

$1:

$2:


例子:

例1.


1. echo -e "line1 f2 f3\nline2 f4 f5\nline3 f6 f7"|\#这个\是在窗口中写多行命令用的  
2. awk '{  
3. print "Line no:"NR",No of fields:"NF, "$0="$0,"$1="$1,"$2="$2,"$3="$3  
4. }'


小注一下:$1是打印第一个,$NF打印最后一个字段,$(NF-1)打印倒数第二个

例2.


1. seq 5 | awk 'BEGIN{ sum=0;print "Summation:"}{print $1"+";sum+=1}END{print "==";print sum}'


这个例子用到了基本格式。

BEGIN中 初始化了sum,打印Summation

中间模块打印了第一列,然后给sum+1

END中打印了sum

例3. 关于-v 外部变量



1. $ VAR=10000 
2. $echo | awk –v VARIABLE=$VAR'{print VARABLE}'


还有另一种灵活的方法可以将多个外部变量传递给awk,例如:


1. $var1="value1" var2="value2" 
2. $echo | awk '{print v1,v2}' v1=$var1 v2=$var2


如果来自文件


1. awk '{print v1,v2}' v1=$var1 v2=$var2 filename


例4

$awk 'NR < 5' #行号小于5

$awk 'NR==1,NR==4' #行号在1到5之间的行

$awk '/linux/' #包含样式linux的行(可以用正则表达式指定样式)

$awk '!/linux/' #不包含样式linux的行




再介绍几个awk内置的字符串函数,也讲一部分。

length(string):
//返回字符串的长度
index(string,serch_string):
//返回search_string在字符串中出现的位置
split(string,array,delimiter):
//用定界符生成一个字符串列表,并将该列表存入数组
substr(string,array,delimiter):
//在字符串中用字符起止便宜量生成子串,并返回该子串
sub(regex,replacement_str,string):
//将正则表达式匹配到的第一处内容替换成replacement_str
gsub(regex,replacement_str,string):
//和sub()类似。不过该函数会替换正则表达式匹配到的所有内容
match(regex,string):
//检查正则表达式是否能够匹配字符串。如果能够匹配,返回非0值;否则,返回0.match()有两个相关的特殊变量,分别是RSTART喝RLENGTH。变量RSTART包含正则表达式所匹配内容的其实位置,而变量RLENGTH包含正则表达式所匹配内容的长度。




 

举例:

1.


1. $ awk '{ sub(/test/, "mytest"); print }' testfile


在整个记录中匹配,替换只发生在第一次匹配发生的时候

2.


1. $ awk '{ sub(/test/, "mytest"); $1}; print }' testfile


在整个记录的第一个域中进行匹配,替换只发生在第一次匹配发生的时候

3.


1. $ awk '{ print index("test", "mytest") }' testfile


实例返回test在mytest的位置,结果应该是3

4.

1. $ awk '{ print length( "test" ) }'


实例返回test字符串的长度。