说明:
awk被设计用于数据流,能够对列和行进行操作。而sed更多的是匹配,进行替换和删除。
awk有很多内建的功能,比如数组,函数等。灵活性是awk的最大优势。
awk的结构
awk '
BEGIN{ print "start"}
pattern { commands }
END{ print "end"}'
file
为了偏于观看,我打了回车,实际上是一行
一个awk脚本通常是3部分
1. BEGIN语句块
2. 能够使用模式匹配的通用语句块
3. END语句块
他们任何一部分都可以不出现在脚本中。脚本通常包含在双引号或者单引号内。
例如:
- awk 'BEGIN{i=0}{i++}END{print i}' filename
工作原理
awk命令的工作方式如下:
1. 执行BEGIN{commands}语句块中的语句
2. 从文件或者stdin中读取一行,然后执行pattern{commands}. 迭代直到全部读取完毕
3. 最后执行END{commands}语句块
再次提醒,他们任何一部都可以没有
而awk的功能也远不止如此
入门实例:
1. echo | awk '{var1="v1";var2="v2";var3="v3"; print var1,var2,var3;}'
2. 打印: v1 v2 v3
解释:逗号为定界符(分隔符)
1. echo | awk '{var1="v1";var2="v2";var3="v3"; print var1"-"var2"-"var3;}'
打印v1-v2-v3
解释:双引号为连接符
其他任何符号,都不能正常输出v1,v2,v3
部分特殊变量:
NR:
NF:表示字段数量,在执行过程中对应于当前行的字段数
$0:
$1:
$2:
例子:
例1.
1. echo -e "line1 f2 f3\nline2 f4 f5\nline3 f6 f7"|\#这个\是在窗口中写多行命令用的
2. awk '{
3. print "Line no:"NR",No of fields:"NF, "$0="$0,"$1="$1,"$2="$2,"$3="$3
4. }'
小注一下:$1是打印第一个,$NF打印最后一个字段,$(NF-1)打印倒数第二个
例2.
1. seq 5 | awk 'BEGIN{ sum=0;print "Summation:"}{print $1"+";sum+=1}END{print "==";print sum}'
这个例子用到了基本格式。
BEGIN中 初始化了sum,打印Summation
中间模块打印了第一列,然后给sum+1
END中打印了sum
例3. 关于-v 外部变量
1. $ VAR=10000
2. $echo | awk –v VARIABLE=$VAR'{print VARABLE}'
还有另一种灵活的方法可以将多个外部变量传递给awk,例如:
1. $var1="value1" var2="value2"
2. $echo | awk '{print v1,v2}' v1=$var1 v2=$var2
如果来自文件
1. awk '{print v1,v2}' v1=$var1 v2=$var2 filename
例4
$awk 'NR < 5' #行号小于5
$awk 'NR==1,NR==4' #行号在1到5之间的行
$awk '/linux/' #包含样式linux的行(可以用正则表达式指定样式)
$awk '!/linux/' #不包含样式linux的行
再介绍几个awk内置的字符串函数,也讲一部分。
length(string):
//返回字符串的长度
index(string,serch_string):
//返回search_string在字符串中出现的位置
split(string,array,delimiter):
//用定界符生成一个字符串列表,并将该列表存入数组
substr(string,array,delimiter):
//在字符串中用字符起止便宜量生成子串,并返回该子串
sub(regex,replacement_str,string):
//将正则表达式匹配到的第一处内容替换成replacement_str
gsub(regex,replacement_str,string):
//和sub()类似。不过该函数会替换正则表达式匹配到的所有内容
match(regex,string):
//检查正则表达式是否能够匹配字符串。如果能够匹配,返回非0值;否则,返回0.match()有两个相关的特殊变量,分别是RSTART喝RLENGTH。变量RSTART包含正则表达式所匹配内容的其实位置,而变量RLENGTH包含正则表达式所匹配内容的长度。
举例:
1.
1. $ awk '{ sub(/test/, "mytest"); print }' testfile
在整个记录中匹配,替换只发生在第一次匹配发生的时候
2.
1. $ awk '{ sub(/test/, "mytest"); $1}; print }' testfile
在整个记录的第一个域中进行匹配,替换只发生在第一次匹配发生的时候
3.
1. $ awk '{ print index("test", "mytest") }' testfile
实例返回test在mytest的位置,结果应该是3
4.
1. $ awk '{ print length( "test" ) }'
实例返回test字符串的长度。