日志分析常用命令

原创

mob604756f2af3b 2021-04-23 15:50:33 ©著作权

文章标签 java 文章分类 Java 后端开发

©著作权归作者所有：来自51CTO博客作者mob604756f2af3b的原创作品，请联系作者获取转载授权，否则将追究法律责任

下面这3个命令是非常好用的日志分析命令，以apache的日志文件access_log为例

1访问次数最多的IP TOP10

当网络流量突然持续异常时，很有可能是有恶意访问，最快的解决方式就是找出访问量最多的几个ip，暂时禁止其访问，然后再仔细观察

2被访问次数最多的URL TOP10

了解哪些Url资源的访问量最大，可以帮助我们有针对性的进行优化

3被请求资源中大小最大的 TOP10

文件大小太大的话会严重影响访问速度，有必要找出大文件进行分析

# cat access_log | sort -k 10 -n -r | head -10

命令解释

这几个命令都是使用了管道“|”把多个命令进行连接，上一个命令的结果交给下一个命令来处理

cat

显示文件内容

cut

是一个选取命令，就是将数据以行为单位进行分析，取出我们想要的

-d : 自定义分隔符，默认为制表符

-f : 与-d一起使用，指定显示哪列

第一个命令中的：cut -f1 -d " "

含义：以空格进行分割，显示结果中的第一列

sort

将文件的每一行作为一个单位，相互比较，比较原则是从首字符向后，依次按ASCII码值进行比较，最后将他们按升序输出

没有参数时就是整行排序

-t : 分隔符，默认是用 [tab] 键来分隔

-k : 选择以哪列进行排序

-n : 使用数字格式进行排序，默认是以文字型态来排序的

-r : 反向排序

uniq

首先比较相邻的行，然后除去第二行和该行的后续副本，重复的行一定要相邻，所以通常与 sort 联合使用，先用 sort 进行排序，然后使用 uniq 去重

-c : 在输出行前面加上每行出现的次数

head

显示结果中头部区域

-10 : 显示头部的10行

综合解释

日志文件的内容示例

183.195.232.39 - - [28/Dec/2015:22:31:48 +0800] "GET /ui-nav.js HTTP/1.1" 304 -
183.195.232.39 - - [28/Dec/2015:22:31:48 +0800] "GET /ui-toggle.js HTTP/1.1" 304 -
183.195.232.38 - - [28/Dec/2015:22:31:48 +0800] "GET /ui-toggle.js HTTP/1.1" 304 -

以第一个命令（查看访问量最大的前10个IP）为例

# cat access_log | cut -f1 -d " " | sort | uniq -c | sort -k 1 -n -r | head -10

cat access_log

先读取 access_log 的内容

cut -f1 -d " "

然后对每行以空格进行分割，只显示第一列（日志的第一列为IP）

输出的结果为：

183.195.232.39
183.195.232.39
183.195.232.38

sort

接下来对IP进行升序排序

输出的结果为：

183.195.232.38
183.195.232.39
183.195.232.39

uniq -c

删除重复的IP，删除的同时记录下相同的IP数量，显示到IP的前面

输出的结果为：

1 183.195.232.38
2 183.195.232.39

sort -k 1 -n -r

对第一列以数字格式倒序排序

输出的结果为：

2 183.195.232.39
1 183.195.232.38

head -10

只显示头10条