linux 命令详解十一

精选转载

学友 2012-03-23 11:28:47 博主文章分类：Linux

   6. 数组：
    因为awk中数组的下标可以是数字和字母，数组的下标通常被称为关键字(key)。值和关键字都存储在内部的一张针对key/value应用hash的表格里。由于hash不是顺序存储，因此在显示数组内容时会发现，它们并不是按照你预料的顺序显示出来的。数组和变量一样，都是在使用时自动创建的，awk也同样会自动判断其存储的是数字还是字符串。一般而言，awk中的数组用来从记录中收集信息，可以用于计算总和、统计单词以及跟踪模板被匹配的次数等等。
   /> cat employees
   Tom Jones       4424    5/12/66         543354
   Mary Adams      5346    11/4/63         28765
   Sally Chang     1654    7/22/54         650000
   Billy Black     1683    9/23/44         336500

   /> awk '{name[x++] = $2}; END{for (i = 0; i < NR; i++) print i, name[i]}' employees
   0 Jones
   1 Adams
   2 Chang
   3 Black
   在上例中，数组name的下标是变量x。awk初始化该变量的值为0，在每次使用后自增1，读取文件中的第二个域的值被依次赋值给name数组的各个元素。在END模块中，for循环遍历数组的值。因为下标是关键字，所以它不一定从0开始，可以从任何值开始。

   #这里是用内置变量NR作为数组的下标了。
   /> awk '{id[NR] = $3}; END {for (x = 1; x <= NR; x++) print id[x]}' employees
   4424
   5346
   1654
   1683

   awk中还提供了一种special for的循环，见如下声明：
   for (item in arrayname) {
       print arrayname[item]
   }

   /> cat db
   Tom Jones
   Mary Adams
   Sally Chang
   Billy Black
   Tom Savage
   Tom Chung
   Reggie Steel
   Tommy Tucker

   /> awk '/^Tom/{name[NR]=$1}; END {for(i = 1;i <= NR; i++) print name[i]}' db
   Tom
Tom
   Tom
Tommy
   从输出结果可以看出，只有匹配正则表达式的记录的第一个域被赋值给数组name的指定下标元素。因为用NR作为下标，所以数组的下标不可能是连续的，因此在END模块中用传统的for循环打印时，不存在的元素就打印空字符串了。下面我们看看用special for的方式会有什么样的输出。
   /> awk '/^Tom/{name[NR]=$1};END{for(i in name) print name[i]}' db
   Tom
   Tom
   Tommy
   Tom

   下面我们看一下用字符串作为下标的例子：(如果下标是字符串文字常量，则需要用双引号括起来)
   /> cat testfile2
   tom
   mary
   sean
   tom
   mary
   mary
   bob
   mary
   alex
/> awk '/tom/{count["tom"]++}; /mary/{count["mary"]++}; END{print "There are " count["tom"] \
       " Toms and " count["mary"] " Marys in the file."} testfile2
   There are 2 Toms and 4 Marys in the file.
   在上例中，count数组有两个元素，下标分别为tom和mary，每一个元素的初始值都是0，没有tom被匹配的时候，count["tom"]就会加一，count["mary"]在匹配mary的时候也同样如此。END模块中打印出存储在数组中的各个元素。

   /> awk '{count[$1]++}; END{for(name in count) printf "%-5s%d\n",name, count[name]}' testfile2
   mary 4
   tom 2
   alex 1
   bob 1
   sean 1
   在上例中，awk是以记录的域作为数组count的下标。

   /> awk '{count[$1]++; if (count[$1] > 1) name[$1]++}; END{print "The duplicates were "; for(i in name) print i}' testfile2
   The duplicates were
   mary
   tom
   在上例中，如count[$1]的元素值大于1的时候，也就是当名字出现多次的时候，一个新的数组name将被初始化，最后打印出那么数组中重复出现的名字下标。

   之前我们介绍的都是如何给数组添加新的元素，并赋予初值，现在我们需要介绍一下如何删除数组中已经存在的元素。要完成这一功能我们需要使用内置函数delete，见如下命令：
   /> awk '{count[$1]++}; \
       END{for(name in count) {\
                if (count[name] == 1)\
                    delete count[name];\
            } \
            for (name in count) \
                print name}' testfile2
   mary
   tom
   上例中的主要技巧来自END模块，先是变量count数组，如果数组中某个元素的值等于1，则删除该元素，这样等同于删除只出现一次的名字。最后用special for循环打印出数组中仍然存在的元素下标名称。

   最后我们来看一下如何使用命令行参数数组，见如下命令：
   /> awk 'BEGIN {for(i = 0; i < ARGC; i++) printf("argv[%d] is %s.\n",i,ARGV[i]); printf("The number of arguments, ARGC=%d\n",ARGC)}' testfile "Peter Pan" 12
   argv[0] is awk.
   argv[1] is testfile.
   argv[2] is Peter Pan.
   argv[3] is 12.
   The number of arguments, ARGC=4
   从输出结果可以看出，命令行参数数组ARGV是以0作为起始下标的，命令行的第一个参数为命令本身(awk)，这个使用方式和C语句main函数完全一致。

   /> awk 'BEGIN{name=ARGV[2]; print "ARGV[2] is " ARGV[2]}; $1 ~ name{print $0}' testfile2 "bob"
   ARGV[2] is bob
   bob
   awk: (FILENAME=testfile2 FNR=9) fatal: cannot open file `bob' for reading (No such file or directory)
   先解释一下以上命令的含义，name变量被赋值为命令行的第三个参数，即bob，之后再在输入文件中找到匹配该变量值的记录，并打印出该记录。
   在输出的第二行报出了awk的处理错误信息，这主要是因为awk将bob视为输入文件来处理了，然而事实上这个文件并不存在，下面我们需要做进一步的处理来修正这个问题。
   /> awk 'BEGIN{name=ARGV[2]; print "ARGV[2] is " ARGV[2]; delete ARGV[2]}; $1 ~ name{print $0}' testfile2 "bob"
   ARGV[2] is bob
   bob
   从输出结果中我们可以看到我们得到了我们想要的结果。需要注意的是delete函数的调用必要要在BEGIN模块中完成，因为这时awk还没有开始读取命令行参数中指定的文件。