需求

在折腾nginx日志分析、nginx实时监控的过程中 
遇到最大的问题就是日志格式解析起来特别费力

调查

通过研究nginx日志参数含义,决定用json格式,重新配置一下nginx日志生成格式和参数字段。 
参考地址:

1. $args                    #请求中的参数值
2. $query_string            #同 $args
3. $arg_NAME                #GET请求中NAME的值
4. $is_args                 #如果请求中有参数,值为"?",否则为空字符串
5. $uri                     #请求中的当前URI(不带请求参数,参数位于$args),可以不同于浏览器传递的$request_uri的值,它可以通过内部重定向,或者使用index指令进行修改,$uri不包含主机名,如"/foo/bar.html"。
6. $document_uri            #同 $uri
7. $document_root           #当前请求的文档根目录或别名
8. $host                    #优先级:HTTP请求行的主机名>"HOST"请求头字段>符合请求的服务器名.请求中的主机头字段,如果请求中的主机头不可用,则为服务器处理请求的服务器名称
9. $hostname                #主机名
10. $https                   #如果开启了SSL安全模式,值为"on",否则为空字符串。
11. $binary_remote_addr      #客户端地址的二进制形式,固定长度为4个字节
12. $body_bytes_sent         #传输给客户端的字节数,响应头不计算在内;这个变量和Apache的mod_log_config模块中的"%B"参数保持兼容
13. $bytes_sent              #传输给客户端的字节数
14. $connection              #TCP连接的序列号
15. $connection_requests     #TCP连接当前的请求数量
16. $content_length          #"Content-Length" 请求头字段
17. $content_type            #"Content-Type" 请求头字段
18. $cookie_name             #cookie名称
19. $limit_rate              #用于设置响应的速度限制
20. $msec                    #当前的Unix时间戳
21. $nginx_version           #nginx版本
22. $pid                     #工作进程的PID
23. $pipe                    #如果请求来自管道通信,值为"p",否则为"."
24. $proxy_protocol_addr     #获取代理访问服务器的客户端地址,如果是直接访问,该值为空字符串
25. $realpath_root           #当前请求的文档根目录或别名的真实路径,会将所有符号连接转换为真实路径
26. $remote_addr             #客户端地址
27. $remote_port             #客户端端口
28. $remote_user             #用于HTTP基础认证服务的用户名
29. $request                 #代表客户端的请求地址
30. $request_body            #客户端的请求主体:此变量可在location中使用,将请求主体通过proxy_pass,fastcgi_pass,uwsgi_pass和scgi_pass传递给下一级的代理服务器
31. $request_body_file       #将客户端请求主体保存在临时文件中。文件处理结束后,此文件需删除。如果需要之一开启此功能,需要设置client_body_in_file_only。如果将次文件传 递给后端的代理服务器,需要禁用request body,即设置proxy_pass_request_body off,fastcgi_pass_request_body off,uwsgi_pass_request_body off,or scgi_pass_request_body off
32. $request_completion      #如果请求成功,值为"OK",如果请求未完成或者请求不是一个范围请求的最后一部分,则为空
33. $request_filename        #当前连接请求的文件路径,由root或alias指令与URI请求生成
34. $request_length          #请求的长度 (包括请求的地址,http请求头和请求主体)
35. $request_method          #HTTP请求方法,通常为"GET"或"POST"
36. $request_time            #处理客户端请求使用的时间,单位为秒,精度毫秒; 从读入客户端的第一个字节开始,直到把最后一个字符发送给客户端后进行日志写入为止。
37. $request_uri             #这个变量等于包含一些客户端请求参数的原始URI,它无法修改,请查看$uri更改或重写URI,不包含主机名,例如:"/cnphp/test.php?arg=freemouse"
38. $scheme                  #请求使用的Web协议,"http" 或 "https"
39. $server_addr             #服务器端地址,需要注意的是:为了避免访问linux系统内核,应将ip地址提前设置在配置文件中
40. $server_name             #服务器名
41. $server_port             #服务器端口
42. $server_protocol         #服务器的HTTP版本,通常为 "HTTP/1.0" 或 "HTTP/1.1"
43. $status                  #HTTP响应代码
44. $time_iso8601            #服务器时间的ISO 8610格式
45. $time_local              #服务器时间(LOG Format 格式)
46. $cookie_NAME             #客户端请求Header头中的cookie变量,前缀"$cookie_"加上cookie名称的变量,该变量的值即为cookie名称的值
47. $http_NAME               #匹配任意请求头字段;变量名中的后半部分NAME可以替换成任意请求头字段,如在配置文件中需要获取http请求头:"Accept-Language",$http_accept_language即可
48. $http_cookie
49. $http_host               #请求地址,即浏览器中你输入的地址(IP或域名)
50. $http_referer            #url跳转来源,用来记录从那个页面链接访问过来的
51. $http_user_agent         #用户终端浏览器等信息
52. $http_x_forwarded_for
53. $sent_http_NAME          #可以设置任意http响应头字段;变量名中的后半部分NAME可以替换成任意响应头字段,如需要设置响应头Content-length,$sent_http_content_length即可
54. $sent_http_cache_control
55. $sent_http_connection
56. $sent_http_content_type
57. $sent_http_keep_alive
58. $sent_http_last_modified
59. $sent_http_location
60. $sent_http_transfer_encoding

修改

最后把默认的日志格式

'$remote_addr - $remote_user [$time_local] "$request" ''$status $body_bytes_sent "$http_referer" ''"$http_user_agent" "$http_x_forwarded_for"';

改为

'{"time":"$msec",''"ip":"$remote_addr",''"method":"$request_method",''"url":"$request_uri",''"status":$status,''"bytes":$body_bytes_sent,''"ua":"$http_user_agent",''"ref":"$http_referer",''"forward":"$http_x_forwarded_for",''"up_addr":"$upstream_addr",''"host":"$upstream_http_host",''"resp_time":"$upstream_response_time",''"req_time":"$request_time"''}';

做了如下修改 
1. 整体改为json格式输出,免去之后自己正则校验 
2. 时间格式改时间戳 
2. request拆分出了request_method和$request_uri 
3. 尽量用简短的参数名,字段也只保留有用的

生效

# 原版access_log  /var/log/nginx/access.log  main;# 改为access_log  /var/log/nginx/access.log  log_json;# 保存文件# 运行校验nginx -t# 重新加载nginx -s reload

效果

之前的格式

1. 000.000.000.000--[26/Feb/2019:22:31:29+0800]"POST /index.php HTTP/1.1"301185"http://baidu.com/index.php""Mozilla/4.0 (compatible; MSIE 9.0; Windows NT 6.1)""-"

之后的格式

{"time":"1557987129.988","ip":"000.000.000.000","method":"GET","url":"/css/xxx.css","status":200,"bytes":1000,"ua":"Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/60.0.3239.132 Safari/537.36","ref":"https://www.baidu.com/","forward":"-","up_addr":"-","host":"-","resp_time":"-","req_time":"0.000"}

总结

相比之下,json版肯定会长一点,但重复内容隔天以后就会被压缩掉,实际增加的磁盘占用不太明显,但解析起来可以减少大量难度和时间

END