使用 awk 命令行快速分析 accesslog访问日志

转载

程序员达叔 2021-07-08 16:56:07

LogFormat "%h %l %u %t \"%r\" %>s %b \"%{Referer}i\" \"%{User-Agent}i\"" combined

以下是每个域的简单介绍：

%h = 发起请求的客户端 IP 地址。这里记录的 IP 地址并不一定是真实用户客户机的 IP 地址，它可能是私网客户端的公网映射地址或代理服务器地址。

%l = 客户机的 RFC 1413 标识 ( 参考 ) ，只有实现了 RFC 1413 规范的客户端，才能提供此信息。
%u = 访问用户的 ID
%t = 收到请求的时间
%r = 来自客户端的请求行
%>s = 服务器返回客户端的状态码
%b = 返回给客户端的字节大小，但不包括响应头的大小
%{Referer}i = 引用页
%{User-Agent}i = 浏览器的类型

以下三行为样例日志：

 TransferLog "|/opt/IBM/HTTPServer/bin/rotatelogs /opt/IBM/HTTPServer/logs/access_log 5M"

Windows 服务器：

AWK 语言基础

为了能理解 AWK 程序，我们下面概述其基本知识。AWK 程序可以由一行或多行文本构成，其中核心部分是包含一个模式和动作的组合。

 202.189.63.115 - - [31/Aug/2012:15:42:31 +0800] "GET / HTTP/1.1" 200 1365 "-" 
 "Mozilla/5.0 (Windows NT 6.1; WOW64; rv:15.0) Gecko/20100101 Firefox/15.0.1"

$0 就是整个记录行
$1 就是访问 IP ” 202.189.63.115”
$4 就是请求时间的前半部分 “[31/Aug/2012:15:42:31”
$5 就是请求时间的后半部分 “+0800]”

以此类推……

当我们使用默认的域分割符时，我们可以从日志中解析出下面不同类型的信息：

注意：这里为了避免 Unix/Linux Shell 误解 “ 为字符串开始，我们使用了反斜杠，转义了 “ 。

现在，我们已经掌握了 awk 的基本知识，以及它是怎样解析日志的。下面我们做好准备开始到真实的世界里开始“冒险”了。

回页首

awk -F\" '{print $6}' access.log | sort | uniq -c | sort -fr

此命令行首先解析出浏览器域，然后使用管道将输出作为第一个 sort 命令的输入。第一个 sort 命令主要是为了方便 uniq 命令统计出不同浏览器出现的次数。最后一个 sort 命令将把之前的统计结果倒序排列并输出。

awk '($9 ~ /404/)' access.log

2. 统计所有状态码为 404 的请求

注意：使用前，将 www.example.com 修改为自己网站的域名。

使用 ” 分解每一行；
请求行中必须包括 “.jpg” 、”.gif” 或 ”.png”；
引用页不是以您的网站域名字符串开始（在此例中，即 www.example.com ）；
显示出所有引用页，并统计出现的次数。

awk '{++S[$1]} END {for (a in S) print a,S[a]}' log_file

将每个 IP 访问的页面数进行从小到大排序：

awk '{print $4,$1}' access.log | grep 31/Aug/2012:14 | awk '{print $2}'| sort | uniq | \
wc -l

统计访问最多的前十个 IP 地址

 cat access.log |awk '{print $10 " " $1 " " $4 " " $7}'|sort -nr|head -100

列出输出大于 204800 byte ( 200kb) 的页面以及对应页面发生次数

 LogFormat "%h %l %u %t \"%r\" %>s %b \"%{Referer}i\" \"%{User-Agent}i\" %T" combined

可以使用下面的命令统计出所有响应时间超过 3 秒的日志记录。

上一篇：log4j日志配置详解

下一篇：使用jstat分析系统的垃圾回收情况

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯