LogFormat "%h %l %u %t \"%r\" %>s %b \"%{Referer}i\" \"%{User-Agent}i\"" combined

以下是每个域的简单介绍:

%h = 发起请求的客户端 IP 地址。这里记录的 IP 地址并不一定是真实用户客户机的 IP 地址,它可能是私网客户端的公网映射地址或代理服务器地址。

  • %l = 客户机的 RFC 1413 标识 ( 参考 ) ,只有实现了 RFC 1413 规范的客户端,才能提供此信息。
  • %u = 访问用户的 ID
  • %t = 收到请求的时间
  • %r = 来自客户端的请求行
  • %>s = 服务器返回客户端的状态码
  • %b = 返回给客户端的字节大小,但不包括响应头的大小
  • %{Referer}i = 引用页
  • %{User-Agent}i = 浏览器的类型

以下三行为样例日志:

 TransferLog "|/opt/IBM/HTTPServer/bin/rotatelogs /opt/IBM/HTTPServer/logs/access_log 5M"

Windows 服务器:

AWK 语言基础

为了能理解 AWK 程序,我们下面概述其基本知识。AWK 程序可以由一行或多行文本构成,其中核心部分是包含一个模式和动作的组合。

 202.189.63.115 - - [31/Aug/2012:15:42:31 +0800] "GET / HTTP/1.1" 200 1365 "-" 
 "Mozilla/5.0 (Windows NT 6.1; WOW64; rv:15.0) Gecko/20100101 Firefox/15.0.1"
  • $0 就是整个记录行
  • $1 就是访问 IP ” 202.189.63.115”
  • $4 就是请求时间的前半部分 “[31/Aug/2012:15:42:31”
  • $5 就是请求时间的后半部分 “+0800]”

以此类推……

当我们使用默认的域分割符时,我们可以从日志中解析出下面不同类型的信息:

 

注意:这里为了避免 Unix/Linux Shell 误解 “ 为字符串开始,我们使用了反斜杠,转义了 “ 。

现在,我们已经掌握了 awk 的基本知识,以及它是怎样解析日志的。 下面我们做好准备开始到真实的世界里开始“冒险”了。

 

回页首

awk -F\" '{print $6}' access.log | sort | uniq -c | sort -fr


此命令行首先解析出浏览器域,然后使用管道将输出作为第一个 sort 命令的输入。第一个 sort 命令主要是为了方便 uniq 命令统计出不同浏览器出现的次数。最后一个 sort 命令将把之前的统计结果倒序排列并输出。

awk '($9 ~ /404/)' access.log

2. 统计所有状态码为 404 的请求

 

注意:使用前,将 www.example.com 修改为自己网站的域名。

  • 使用 ” 分解每一行;
  • 请求行中必须包括 “.jpg” 、”.gif” 或 ”.png”;
  • 引用页不是以您的网站域名字符串开始( 在此例中,即 www.example.com );
  • 显示出所有引用页,并统计出现的次数。

awk '{++S[$1]} END {for (a in S) print a,S[a]}' log_file

将每个 IP 访问的页面数进行从小到大排序:

awk '{print $4,$1}' access.log | grep 31/Aug/2012:14 | awk '{print $2}'| sort | uniq | \
wc -l

统计访问最多的前十个 IP 地址

 cat access.log |awk '{print $10 " " $1 " " $4 " " $7}'|sort -nr|head -100

列出输出大于 204800 byte ( 200kb) 的页面以及对应页面发生次数

 LogFormat "%h %l %u %t \"%r\" %>s %b \"%{Referer}i\" \"%{User-Agent}i\" %T" combined

可以使用下面的命令统计出所有响应时间超过 3 秒的日志记录。