linux中awk语法

精选转载

西索oO 2012-12-27 17:59:54 博主文章分类：LinuxSys

文章标签 linux action awk -F 文章分类 运维

awk的环境变量

变量	描述
$n	当前记录的第n个字段，字段间由FS分隔。
$0	完整的输入记录。
ARGC	命令行参数的数目。
ARGIND	命令行中当前文件的位置(从0开始算)。
ARGV	包含命令行参数的数组。
CONVFMT	数字转换格式(默认值为%.6g)
ENVIRON	环境变量关联数组。
ERRNO	最后一个系统错误的描述。
FIELDWIDTHS	字段宽度列表(用空格键分隔)。
FILENAME	当前文件名。
FNR	同NR，但相对于当前文件。
FS	字段分隔符(默认是任何空格)。
IGNORECASE	如果为真，则进行忽略大小写的匹配。
NF	当前记录中的字段数。
NR	当前记录数。
OFMT	数字的输出格式(默认值是%.6g)。
OFS	输出字段分隔符(默认值是一个空格)。
ORS	输出记录分隔符(默认值是一个换行符)。
RLENGTH	由match函数所匹配的字符串的长度。
RS	记录分隔符(默认是一个换行符)。
RSTART	由match函数所匹配的字符串的第一个位置。
SUBSEP	数组下标分隔符(默认值是/034)。

awk运算符

运算符	描述
= += -= = /= %= ^= *=	赋值
?:	C条件表达式
\|\|	逻辑或
&&	逻辑与
~ ~!	匹配正则表达式和不匹配正则表达式
< <= > >= != ==	关系运算符
空格	连接
+ -	加，减
* / &	乘，除与求余
+ - !	一元加，减和逻辑非
^ ***	求幂
++ --	增加或减少，作为前缀或后缀
$	字段引用
in	数组成员

记录和域

1. 记录

awk把每一个以换行符结束的行称为一个记录。

记录分隔符：默认的输入和输出的分隔符都是回车，保存在内建变量ORS和RS中。

$0变量：它指的是整条记录。如$ awk '{print $0}' test将输出test文件中的所有记录。

变量NR：一个计数器，每处理完一条记录，NR的值就增加1。

如$ awk '{print NR,$0}' test将输出test文件中所有记录，并在记录前显示记录号。

2. 域

记录中每个单词称做“域”，默认情况下以空格或tab分隔。awk可跟踪域的个数，并在内建变量NF中保存该值。如$ awk '{print $1,$3}' test将打印test文件中第一和第三个以空格分开的列(域)

3. 域分隔符

内建变量FS保存输入域分隔符的值，默认是空格或tab。我们可以通过-F命令行选项修改FS的值。如$ awk -F: '{print $1,$5}' test将打印以冒号为分隔符的第一，第五列的内容。

可以同时使用多个域分隔符，这时应该把分隔符写成放到方括号中，如$awk -F'[:/t]' '{print $1,$3}' test，表示以空格、冒号和tab作为分隔符。

输出域的分隔符默认是一个空格，保存在OFS中。如$ awk -F: '{print $1,$5}' test，$1和$5间的逗号就是OFS的值。

Linux awk几乎是一种自解释的独立编程语言。它的最基本的功能就是在文件和字符串中基于指定规则浏览和抽取信息。有三种方式可以调用awk，第一种是命令行方式，例如:

Java代码

awk [-F seperator-fields] 'commands' input-file

commands是真正的awk命令，即由一系列的大括号组成，-F 域分割符这个是可选的，awk默认采用空格来分割，但是对于/etc/passwd这样的文件，可能就需要采用冒号: 这样的分割符号。

第二种方式是将所有的awk命令插入一个文件，并使awk程序可执行，然后用awk命令解释器作为脚本的首行，以便通过键入脚本名称来调用它

第三种方式是将所有awk命令插入一个单独的文件，然后输入以下命令来调用:

1、awk '/101/' file 显示文件file中包含101的匹配行。
awk '/101/,/105/' file
awk '$1 == 5' file
awk '$1 == "CT"' file 注意必须带双引号
awk '$1 * $2 >100 ' file
awk '$2 >5 && $2<=15' file

2、awk '{print NR,NF,$1,$NF,}' file 显示文件file的当前记录号、域数和每一行的第一个和最后一个域。
awk '/101/ {print $1,$2 + 10}' file 显示文件file的匹配行的第一、二个域加10。
awk '/101/ {print $1$2}' file
awk '/101/ {print $1 $2}' file 显示文件file的匹配行的第一、二个域，但显示时域中间没有分隔符。

3、df | awk '$4>1000000 ' 通过管道符获得输入，如：显示第4个域满足条件的行。

4、awk -F "|" '{print $1}' file 按照新的分隔符“|”进行操作。
awk 'BEGIN { FS="[: /t|]" }
{print $1,$2,$3}' file 通过设置输入分隔符（FS="[: /t|]"）修改输入分隔符。
Sep="|"
awk -F $Sep '{print $1}' file 按照环境变量Sep的值做为分隔符。
awk -F '[ :/t|]' '{print $1}' file 按照正则表达式的值做为分隔符，这里代表空格、:、TAB、|同时做为分隔符。
awk -F '[][]' '{print $1}' file 按照正则表达式的值做为分隔符，这里代表[、]

5、awk -f awkfile file 通过文件awkfile的内容依次进行控制。
cat awkfile
/101/{print "/047 Hello! /047"} --遇到匹配行以后打印 ' Hello! './047代表单引号。
{print $1,$2} --因为没有模式控制，打印每一行的前两个域。

6、awk '$1 ~ /101/ {print $1}' file 显示文件中第一个域匹配101的行（记录）。

7、awk 'BEGIN { OFS="%"}
{print $1,$2}' file 通过设置输出分隔符（OFS="%"）修改输出格式。

8、awk 'BEGIN { max=100 ;print "max=" max}

BEGIN 表示在处理任意行之前进行的操作。
{max=($1 >max ?$1:max); print $1,"Now max is "max}' file 取得文件第一个域的最大值。

9、awk '$1 * $2 >100 {print $1}' file 显示文件中第一个域匹配101的行（记录）。

10、awk '{$1 == 'Chi' {$3 = 'China'; print}' file 找到匹配行后先将第3个域替换后再显示该行（记录）。
awk '{$7 %= 3; print $7}' file 将第7域被3除，并将余数赋给第7域再打印。

11、awk '/tom/ {wage=$2+$3; printf wage}' file 找到匹配行后为变量wage赋值并打印该变量。

12、awk '/tom/ {count++;}
END {print "tom was found "count" times"}' file

END表示在所有输入行处理完后进行处理。

13、awk 'gsub(//$/,"");gsub(/,/,""); cost+=$4;
END {print "The total is $" cost>"filename"}' file

gsub函数用空串替换$和,再将结果输出到filename中。
1 2 3 $1,200.00
1 2 3 $2,300.00
1 2 3 $4,000.00

awk '{gsub(//$/,"");gsub(/,/,"");
if ($4>1000&&$4<2000) c1+=$4;
else if ($4>2000&&$4<3000) c2+=$4;
else if ($4>3000&&$4<4000) c3+=$4;
else c4+=$4; }
END {printf "c1=[%d];c2=[%d];c3=[%d];c4=[%d]/n",c1,c2,c3,c4}"' file
通过if和else if完成条件语句

awk '{gsub(//$/,"");gsub(/,/,"");
if ($4>3000&&$4<4000) exit;
else c4+=$4; }
END {printf "c1=[%d];c2=[%d];c3=[%d];c4=[%d]/n",c1,c2,c3,c4}"' file

通过exit在某条件时退出，但是仍执行END操作。

awk '{gsub(//$/,"");gsub(/,/,"");
if ($4>3000) next;
else c4+=$4; }
END {printf "c4=[%d]/n",c4}"' file
通过next在某条件时跳过该行，对下一行执行操作。

14、awk '{ print FILENAME,$0 }' file1 file2 file3>fileall

把file1、file2、file3的文件内容全部写到fileall中，格式为打印文件并前置文件名。

15、awk ' $1!=previous { close(previous); previous=$1 }
{print substr($0,index($0," ") +1)>$1}' fileall

把合并后的文件重新分拆为3个文件。并与原文件一致。

16、awk 'BEGIN {"date"|getline d; print d}'

通过管道把date的执行结果送给getline，并赋给变量d，然后打印。

17、awk 'BEGIN {system("echo "Input your name://c""); getline d;print "/nYour name is",d,"/b!/n"}'
通过getline命令交互输入name，并显示出来。

       awk 'BEGIN {FS=":"; while(getline< "/etc/passwd" >0) { if($1~"050[0-9]_") print $1}}'
       打印/etc/passwd文件中用户名包含050x_的用户名。

18、awk '{ i=1;while(i<NF) {print NF,$i;i++}}' file 通过while语句实现循环。
       awk '{ for(i=1;i<NF;i++) {print NF,$i}}' file 通过for语句实现循环。

type file|awk -F "/" '
{ for(i=1;i<NF;i++)
{ if(i==NF-1) { printf "%s",$i }
else { printf "%s/",$i } }}'

显示一个文件的全路径。

用for和if显示日期
awk 'BEGIN {
for(j=1;j<=12;j++)
{ flag=0;
printf "/n%d月份/n",j;
for(i=1;i<=31;i++)
{
if (j==2&&i>28) flag=1;
if ((j==4||j==6||j==9||j==11)&&i>30) flag=1;
if (flag==0) {printf "%02d%02d ",j,i}
}
}
}'

19、在awk中调用系统变量必须用单引号，如果是双引号，则表示字符串
Flag=abcd
awk '{print '$Flag'}' 结果为abcd
awk '{print "$Flag"}' 结果为$Flag

20. 其他小示例

$ awk '/^(no|so)/' test-----打印所有以模式no或so开头的行。

$ awk '/^[ns]/{print $1}' test-----如果记录以n或s开头，就打印这个记录。

$ awk '$1 ~/[0-9][0-9]$/(print $1}' test-----如果第一个域以两个数字结束就打印这个记录。

$ awk '$1 == 100 || $2 < 50' test-----如果第一个或等于100或者第二个域小于50，则打印该行。

$ awk '$1 != 10' test-----如果第一个域不等于10就打印该行。

$ awk '/test/{print $1 + 10}' test-----如果记录包含正则表达式test，则第一个域加10并打印出来。

$ awk '{print ($1 > 5 ? "ok "$1: "error"$1)}' test-----如果第一个域大于5则打印问号后面的表达式值，否则打印冒号后面的表达式值。

$ awk '/^root/,/^mysql/' test----打印以正则表达式root开头的记录到以正则表达式mysql开头的记录范围内的所有记录。如果找到一个新的正则表达式root开头的记录，则继续打印直到下一个以正则表达式mysql开头的记录为止，或到文件末尾。

Java代码

awk -f awk-script-file input-files
//-f 选项指明在文件awk_script_file的awk脚本，input_file是使用awk进行浏览的文件名

awk语言中采取一种特别的方式来访问文件－－域和记录

awk执行的时候，将其浏览域标记为$1 $2 ... $n ，使用$1,$3表示将参考第一个域和第三个域，这里采用逗号来分隔开不同的域，如果希望打印全部的域，可以直接使用$0，而不必一个一个域的去指定。例如，打印/etc/passwd文件里的第一列(也即登录的用户名)

Java代码

awk -F : '{ print $1 }' /etc/passwd

将输出该文件的第一列

任何awk语句都是由模式和动作来组成，模式部分决定动作语句何时触发及触发事件，处理即对数据采取的动作，如果省略模式，动作将时刻保持执行状态。

模式可以是任意的正则表达式语句或其他条件语句，它包括两个特殊的字段，BEGIN和END，BEGIN使用在任何文本浏览动作之前，常用来打印行头，而END用在所有文本浏览动作之后，常用来打印文本总数和结尾状态标志。

例如:有这样一个文件:

Java代码

[chenwu@localhost unit9-awkIntroduce]$ cat grade.txt
chenwu 05/99 4811
mary 02/22 1231
tom 09/15 1182

下面的语句将打印一个常用的报表头，及第一列和第三列。

Java代码

[chenwu@localhost unit9-awkIntroduce]$ awk 'BEGIN {print "name""\t""id"} {print $1"\t"$3}' grade.txt
name id
chenwu 4811
mary 1231
tom 1182

如果加上行尾，则应该是这样:

Java代码

[chenwu@localhost unit9-awkIntroduce]$ awk 'BEGIN {print "name""\t""id"} {print $1"\t"$3} END {print "end-of-report"}'
grade.txt >grade.report
[chenwu@localhost unit9-awkIntroduce]$ ls
grade.report grade.txt
[chenwu@localhost unit9-awkIntroduce]$ cat grade.report
name id
chenwu 4811
mary 1231
tom 1182
end-of-report

在碰到awk错误的时候，应该这样查找错误:

1:查找命令commands是否被单引号括起来

2:查找commands内大括号是否匹配

尝试着加入条件判断:

这里打印名称为mary的行. 使用if($x(第几列)~ 正则表达式) 语句

Java代码

[chenwu@localhost unit9-awkIntroduce]$ awk 'BEGIN {print "name""\t""ID"} {if($1 ~/mary/) print $0}
END {print "end-of-report"}' grade.txt
name ID
mary 02/22 1231
end-of-report

而取反的方式是if($1 !~ /mary/)

在awk中组合条件语句与javascript很类似，都是使用||或者&& ，这与传统的shell -o 或者 -a 不同。

同时在awk中提供了很多内置变量，可以方便的运用。常用的有以下几个:

NF 域的个数 NR 已读记录的个数 FILENAME表示文件名

例如:

Java代码

[chenwu@localhost unit9-awkIntroduce]$ awk '{print NF,NR,$0} END{print FILENAME}' grade.txt
3 1 chenwu 05/99 4811
3 2 mary 02/22 1231
3 3 tom 09/15 1182
grade.txt

awk中域值的比较操作有以下两种方式:

第一种方式，直接在条件表达式里硬编码:

例如，想查看所有得分在27分以下的同学:

Java代码

[chenwu@localhost unit9-awkIntroduce]$ cat grade.txt
chenwu 05/99 4811 27
mary 02/22 1231 30
tom 09/15 1182 25
[chenwu@localhost unit9-awkIntroduce]$ awk '{if($4<27) print $0}' grade.txt
tom 09/15 1182 25

这里还有第二种方式，在BEGIN模块里定义变量，从而可以提高内聚性。例如:

Java代码

[chenwu@localhost unit9-awkIntroduce]$ awk 'BEGIN {baseline=27} {if($4<baseline) print $0}' grade.txt
tom 09/15 1182 25

注意这里取变量的时候，不能加上$符号，如果不小心加上$baseline，那么什么都不会输出了:

Java代码

[chenwu@localhost unit9-awkIntroduce]$ awk 'BEGIN {baseline=27} {if($4<$baseline) print $0}' grade.txt
[chenwu@localhost unit9-awkIntroduce]

如果只是想统计某一列的总和等，则应该这样做:

Java代码

[chenwu@localhost unit9-awkIntroduce]$ awk '{total+=$4} END {print "total scores are "total}' grade.txt
total scores are 82

再例如，只查找所有普通文件的长度总和(非目录)。可以参考下面的方式:

Java代码

[chenwu@localhost unit9-awkIntroduce]$ ls -l | awk 'BEGIN {total=0} {if($1~/^[^d]/) total+=$5;print $0}
END {print "total size:"total}'
总计 12
-rw-rw-r-- 1 chenwu chenwu 53 06-10 10:16 grade.report
-rw-rw-r-- 1 chenwu chenwu 64 06-11 10:12 grade.txt
drwxrwxr-x 2 chenwu chenwu 4096 06-11 10:28 testDir
total size:117

当然也可以将if($1 ~/^[^d]/) 换成if($1 ! ~ /^d/)，例如:

Java代码

[chenwu@localhost unit9-awkIntroduce]$ ls -l | awk 'BEGIN {total=0} {if($1!~/^d/) total+=$5;print $0}
END {print "total size:"total}'
总计 12
-rw-rw-r-- 1 chenwu chenwu 53 06-10 10:16 grade.report
-rw-rw-r-- 1 chenwu chenwu 64 06-11 10:12 grade.txt
drwxrwxr-x 2 chenwu chenwu 4096 06-11 10:28 testDir
total size:117