记录和域

6.1. 记录

       awk把每一个以换行符结束的行称为一个记录。

       记录分隔符:默认的输入和输出的分隔符都是回车,保存在内建变量ORSRS中。

       $0变量:它指的是整条记录。如$ awk '{print $0}' test将输出test文件中的所有记录。

       变量NR一个计数器,每处理完一条记录,NR的值就增加1

       $ awk '{print NR,$0}' test将输出test文件中所有记录,并在记录前显示记录号。

 

6.2. 

       记录中每个单词称做“域”,默认情况下以空格或tab分隔awk可跟踪域的个数,并在内建变量NF中保存该值。如$ awk '{print $1,$3}' test将打印test文件中第一和第三个以空格分开的列()

 

6.3. 域分隔符

       内建变量FS保存输入域分隔符的值,默认是空格或tab。我们可以通过-F命令行选项修改FS的值。如$ awk -F: '{print $1,$5}' test将打印以冒号为分隔符的第一,第五列的内容。

       可以同时使用多个域分隔符,这时应该把分隔符写成放到方括号中,如$awk -F'[:/t]' '{print $1,$3}' test,表示以空格、冒号和tab作为分隔符。

       输出域的分隔符默认是一个空格保存在OFS。如$ awk -F: '{print $1,$5}' test$1$5间的逗号就是OFS的值。

 

. gawk专用正则表达式元字符

 

以下几个是gawk专用的,不适合unix版本的awk

1/Y 匹配一个单词开头或者末尾的空字符串。

2/B匹配单词内的空字符串。

3/<匹配一个单词的开头的空字符串,锚定开始。

4/> 匹配一个单词的末尾的空字符串,锚定末尾。

5/w 匹配一个字母数字组成的单词。

6/W 匹配一个非字母数字组成的单词。

7/‘:匹配字符串开头的一个空字符串。

8/' 匹配字符串末尾的一个空字符串。

 

匹配操作符(~)

       用来在记录或者域内匹配正则表达式。如$ awk '$1 ~/^root/' test将显示test文件第一列中以root开头的行。

 

比较表达式

conditional expression1 ? expression2: expression3

例如:$ awk '{max = {$1 > $3} ? $1: $3: print max}' test。如果第一个域大于第三个域,$1就赋值给max,否则$3就赋值给max

$ awk '$1 + $2 < 100' test。如果第一和第二个域相加大于100,则打印这些行。

$ awk '$1 > 5 && $2 < 10' test,如果第一个域大于5,并且第二个域小于10,则打印这些行。

 

范围模板

       范围模板匹配从第一个模板的第一次出现到第二个模板的第一次出现之间所有行。如果有一个模板没出现,则匹配到开头或末尾。如$ awk '/root/,/mysql/' test将显示root第一次出现到mysql第一次出现之间的所有行。

 

十一. 示例

 

1awk '/101/' file 显示文件file中包含101的匹配行。 
awk '/101/,/105/' file 
awk '$1 == 5' file 
awk '$1 == "CT"' file
注意必须带双引号 
awk '$1 * $2 >100 ' file 
awk '$2 >5 && $2<=15' file 


2
awk '{print NR,NF,$1,$NF,}' file 显示文件file的当前记录号、域数和每一行的第一个和最后一个域。 
awk '/101/ {print $1,$2 + 10}' file
显示文件file的匹配行的第一、二个域加10 
awk '/101/ {print $1$2}' file 
awk '/101/ {print $1 $2}' file
显示文件file的匹配行的第一、二个域,但显示时域中间没有分隔符。 


3
df | awk '$4>1000000 ' 通过管道符获得输入,如:显示第4个域满足条件的行。 


4
awk -F "|" '{print $1}' file 按照新的分隔符“|”进行操作。 
awk 'BEGIN { FS="[: /t|]" } 
{print $1,$2,$3}' file
通过设置输入分隔符(FS="[: /t|]")修改输入分隔符。
 
Sep="|" 
awk -F $Sep '{print $1}' file
按照环境变量Sep的值做为分隔符。
 
awk -F '[ :/t|]' '{print $1}' file
按照正则表达式的值做为分隔符,这里代表空格、:TAB|同时做为分隔符。
 
awk -F '[][]' '{print $1}' file
按照正则表达式的值做为分隔符,这里代表[


5
awk -f awkfile file 通过文件awkfile的内容依次进行控制。 
cat awkfile 
/101/{print "/047 Hello! /047"} --
遇到匹配行以后打印 ' Hello! './047代表单引号。 
{print $1,$2} --
因为没有模式控制,打印每一行的前两个域。
 

6awk '$1 ~ /101/ {print $1}' file 显示文件中第一个域匹配101的行(记录) 

7awk 'BEGIN { OFS="%"} 
{print $1,$2}' file
通过设置输出分隔符(OFS="%")修改输出格式。 

8awk 'BEGIN { max=100 ;print "max=" max}

       BEGIN 表示在处理任意行之前进行的操作。 
{max=($1 >max ?$1:max); print $1,"Now max is "max}' file
取得文件第一个域的最大值。 

 

9awk '$1 * $2 >100 {print $1}' file 显示文件中第一个域匹配101的行(记录)。 

10awk '{$1 == 'Chi' {$3 = 'China'; print}' file 找到匹配行后先将第3个域替换后再显示该行(记录)。 
awk '{$7 %= 3; print $7}' file
将第7域被3除,并将余数赋给第7域再打印。
 

11awk '/tom/ {wage=$2+$3; printf wage}' file 找到匹配行后为变量wage赋值并打印该变量。 

12awk '/tom/ {count++;} 
END {print "tom was found "count" times"}' file

 

END表示在所有输入行处理完后进行处理。 

13awk 'gsub(//$/,"");gsub(/,/,""); cost+=$4; 
END {print "The total is $" cost>"filename"}' file

       gsub函数用空串替换$,再将结果输出到filename中。 
1 2 3 $1,200.00 
1 2 3 $2,300.00 
1 2 3 $4,000.00 

awk '{gsub(//$/,"");gsub(/,/,""); 
if ($4>1000&&$4<2000) c1+=$4; 
else if ($4>2000&&$4<3000) c2+=$4; 
else if ($4>3000&&$4<4000) c3+=$4; 
else c4+=$4; } 
END {printf "c1=[%d];c2=[%d];c3=[%d];c4=[%d]/n",c1,c2,c3,c4}"' file 
通过ifelse if完成条件语句 


awk '{gsub(//$/,"");gsub(/,/,""); 
if ($4>3000&&$4<4000) exit; 
else c4+=$4; } 
END {printf "c1=[%d];c2=[%d];c3=[%d];c4=[%d]/n",c1,c2,c3,c4}"' file 

通过exit在某条件时退出,但是仍执行END操作。 

awk '{gsub(//$/,"");gsub(/,/,""); 
if ($4>3000) next; 
else c4+=$4; } 
END {printf "c4=[%d]/n",c4}"' file 
通过next在某条件时跳过该行,对下一行执行操作。 


14
awk '{ print FILENAME,$0 }' file1 file2 file3>fileall

       file1file2file3的文件内容全部写到fileall中,格式为打印文件并前置文件名。 

 

15awk ' $1!=previous { close(previous); previous=$1 } 
{print substr($0,index($0," ") +1)>$1}' fileall

       把合并后的文件重新分拆为3个文件。并与原文件一致。 

 

16awk 'BEGIN {"date"|getline d; print d}'

       通过管道把date的执行结果送给getline,并赋给变量d,然后打印。 

 

17awk 'BEGIN {system("echo "Input your name://c""); getline d;print "/nYour name is",d,"/b!/n"}' 
       通过getline命令交互输入name,并显示出来。
 

       awk 'BEGIN {FS=":"; while(getline< "/etc/passwd" >0) { if($1~"050[0-9]_") print $1}}' 
      
打印/etc/passwd文件中用户名包含050x_的用户名。
 

18
awk '{ i=1;while(i<NF) {print NF,$i;i++}}' file  通过while语句实现循环。
 
       awk '{ for(i=1;i<NF;i++) {print NF,$i}}' file
通过for语句实现循环。 


type file|awk -F "/" ' 
{ for(i=1;i<NF;i++) 
{ if(i==NF-1) { printf "%s",$i } 
else { printf "%s/",$i } }}'

显示一个文件的全路径。 


forif显示日期 
awk 'BEGIN { 
for(j=1;j<=12;j++) 
{ flag=0; 
printf "/n%d
月份/n",j; 
for(i=1;i<=31;i++) 

if (j==2&&i>28) flag=1; 
if ((j==4||j==6||j==9||j==11)&&i>30) flag=1; 
if (flag==0) {printf "%02d%02d ",j,i} 


}' 


19
、在awk中调用系统变量必须用单引号,如果是双引号,则表示字符串 
Flag=abcd 
awk '{print '$Flag'}'
结果为
abcd 
awk '{print "$Flag"}'
结果为$Flag

 

20. 其他小示例

$ awk '/^(no|so)/' test-----打印所有以模式noso开头的行。

$ awk '/^[ns]/{print $1}' test-----如果记录以ns开头,就打印这个记录。

$ awk '$1 ~/[0-9][0-9]$/(print $1}' test-----如果第一个域以两个数字结束就打印这个记录。

$ awk '$1 == 100 || $2 < 50' test-----如果第一个或等于100或者第二个域小于50,则打印该行。

$ awk '$1 != 10' test-----如果第一个域不等于10就打印该行。

$ awk '/test/{print $1 + 10}' test-----如果记录包含正则表达式test,则第一个域加10并打印出来。

$ awk '{print ($1 > 5 ? "ok "$1: "error"$1)}' test-----如果第一个域大于5则打印问号后面的表达式值,否则打印冒号后面的表达式值。

$ awk '/^root/,/^mysql/' test----打印以正则表达式root开头的记录到以正则表达式mysql开头的记录范围内的所有记录。如果找到一个新的正则表达式root开头的记录,则继续打印直到下一个以正则表达式mysql开头的记录为止,或到文件末尾。