三剑客老大——awk企业实战，面试必备

原创

ExcitedBoy45 2018-09-24 21:06:15 博主文章分类：Shell脚本和自动化篇 ©著作权

文章标签 linux awk 三剑客 文章分类 运维

©著作权归作者所有：来自51CTO博客作者ExcitedBoy45的原创作品，请联系作者获取转载授权，否则将追究法律责任

awk生产环境实战案例：

（一）：请执行命令取出linux中eth0的IP地址

法1： ifconfig eth0| grep 'inet addr'| awk -F":" '{print $2}'|awk '{print $1}'

法2： ifconfig eth0| grep 'inet addr'| cut -d: -f2|cut -d" " -f1

法3： ifconfig eth0| grep 'inet addr'| cut -d: -f2| awk '{print $1}'

法4： ifconfig eth0| awk -F '[ :]+' 'NR==2 {print $4}'

#法4为最佳实践

我们来说明下这个简单易用的好办法：

提示：本题NR是行号，分隔符+号匹配，[]里一个或多个任意一个分隔符，这里就是匹配一个或多个冒号或空格。

1）awk -F 后面跟分隔符，其中[空格:]多分隔符写法，意思是以空格或冒号做分隔，后面的"+"号是正则表达式，意思是匹配前面空格或冒号，两者之一的1个或1个以上。

2）NR==2和sed -n "2p",相当，意思都是选择第几行,例：

[root@oldboy ~]# ifconfig eth0|awk NR==2
 inet addr:10.0.0.185  Bcast:10.0.0.255  Mask:255.255.255.0

3）指定awk -F '[ :]+'分隔符后，不同字符串被分隔的列依次为：

	inet	addr	10.0.0.185	Bcast:10.0.0.255 Mask:255.255.255.0
第一列	第二列	第三列	第四列	后面忽略不计。

4）整个答案awk部分意思是，通过NR==2取出第二行，然后，通过-F '[ :]+多分隔符正则匹配，然后通过｛print $4｝打印出第四列！

5）掌握了理论要去实践验证才是科学严谨的学习态度，好，来几个例子实践说话吧。

[root@oldboy ~]# echo ---1:----2|awk -F '[-:]+' '{print $2}'     
1
[root@oldboy ~]# echo ---1:----2|awk -F '[-:]+' '{print $3}'     
2
[root@oldboy ~]# echo ---1:::::2|awk -F '[-:]+' '{print $3}'    
2

（二）：生产服务器netstat tcp连接状态

法1： netstat -ant|awk '{S[$NF]++}END{for(k in S) print k,S[k]}'

法2： netstat -ant|awk '{S[$6]++}END{for(k in S) print k,S[k]}'

法3： netstat -ant |awk '/^tcp/ {S[$NF]++} END {for(a in S) print a,S[a]}'

法4： netstat -ant |awk '/^tcp/ {S[$6]++} END {for(a in S) print a,S[a]}'

awk庖丁解牛

netstat -n |awk '/^tcp/ {++S[$NF]} END {for(a in S) print a, S[a]}'

命令拆分	功能说明
/^tcp/	过滤出以tcp开头的行，“^”为正则表达式用法，以...开头，这里是过滤出以tcp开头的行。
S[]	定义了一个名叫S的数组，在awk中，数组下标通常从 1 开始，而不是 0。
NF	当前记录里域个数，默认以空格分隔，如上所示的记录，NF域个数等于6
$NF	表示一行的最后一个域的值，如上所示的记录，$NF也就是$6，表示第6个字段的值，也就是SYN_RECV或TIME_WAIT等。
S[$NF]	表示数组元素的值，如上所示的记录，就是S[TIME_WAIT]状态的连接数
++S[$NF]	表示把某个数加一，如上所示的记录，就是把S[TIME_WAIT]状态的连接数加一
END
for(key in S)	遍历S[]数组
print key,”\t”,S[key]	打印数组的键和值，中间用\t制表符分割，显示好一些。

小例子测试：

[root@ywxi test]# cat test.txt 
001 name wodi 12k
002 name yingsui 15k
003 name jeacen 10k
004 name kuqi 8k
005 name yideng 10k
006 name xiaofan 8k
[root@ywxi test]# awk '{S[$NF]++} END {for(a in S) print a,S[a]}' test.txt     
15k 1
 8k 2
10k 2
12k 1
[root@ywxi test]# awk '{S[$4]++} END {for(a in S) print a,S[a]}' test.txt  
15k 1
 8k 2
10k 2
12k 1
[root@ywxi test]# awk '{print $4}' test.txt |sort |uniq -c |sort -nr
 2 8k
 2 10k
 1 15k
 1 12k

（三）：awk数组命令生产实战拓展

假设apache日志内容access.log内容为：

[root@ywxi test]# cat access.log 
10.0.0.41 - - [03/Dec/2010:23:27:01 +0800] "HEAD /checkstatus.jsp HTTP/1.0" 200 -
10.0.0.42 - - [03/Dec/2010:23:27:01 +0800] "HEAD /checkstatus.jsp HTTP/1.0" 200 -
10.0.0.42 - - [03/Dec/2010:23:27:01 +0800] "HEAD /checkstatus.jsp HTTP/1.0" 200 -
10.0.0.47 - - [03/Dec/2010:23:27:02 +0800] "HEAD /checkstatus.jsp HTTP/1.0" 200 -
10.0.0.42 - - [03/Dec/2010:23:27:02 +0800] "HEAD /checkstatus.jsp HTTP/1.0" 200 -
10.0.0.47 - - [03/Dec/2010:23:27:02 +0800] "HEAD /checkstatus.jsp HTTP/1.0" 200 -

3.1 统计apache日志单ip访问请求数排名

法1：

[root@ywxi test]# awk '{S[$1]++} END {for(a in S) print S[a],a}' access.log |sort -rn -k2

3 10.0.0.42

2 10.0.0.47

1 10.0.0.41

#提示 $1为第一个域的内容。-k2 为对第二个字段排序，即对数量排序。

法2：

[root@ywxi test]# awk '{print $1}' access.log |sort |uniq -c |sort -rn

法3：

[root@ywxi test]# sed 's/- -.*$//g' access.log |sort |uniq -c |sort -rn

3.2 统计服务器当前单IP连接数最大的IP地址前十

法1： netstat -an |grep EST |awk -F '[ :]+' '{++S[$6]} END {for (key in S) print "ip:"key"----->",S[key]}' |sort -rn -k2 |head

法2： netstat -an |grep EST |awk '{print $5}' |cut -d : -f 1 |grep -v "^$" |awk '{++ETT[$1]} END {for (oldboy in ETT) print "ip:"oldboy "-----",ETT[oldboy] ''}' |sort -rn -k2 |head

（四）：处理以下文件内容,将域名取出并根据域名进行计数排序处理:(百度和sohu面试题)

[root@ywxi test]# cat oldboy.log 
http://www.etiantian.org/index.html
http://www.etiantian.org/1.html
http://post.etiantian.org/index.html
http://mp3.etiantian.org/index.html
http://www.etiantian.org/3.html
http://post.etiantian.org/2.html

处理结果为：

1 mp3.etiantian.org

2 post.etiantian.org

3 www.etiantian.org

法1： cut -d "/" -f3 test.log |sort |uniq -c

法2： awk -F "/" '{print $3}' test.log |sort |uniq -c

法3： sed 's#^http://##g' test.log|sed 's#/.*##g'|sort |uniq -c

法4： cat test.log |tr "\/" "\n"|grep etiantian|sort|uniq -c

法5： sed -e 's#^.*//$.*etiantian.*$/.*html#\1#g' test.log|sort|uniq -c|sort

法6： cut -d "/" -f 3 test.log |awk '{S[$1]++} END {for(a in S) print S[a],a}'

法7： awk -F "/" '{++S[$3]} END {for(key in S) print S[key],key}' test.log

法8： awk -F '[:/]+' '{print $2}' test.log |sort |uniq -c