1.进入存放日志的文件夹


cd d:/111


2.查看该文件下所有文档


ls


3.合并日志或其他文件


cat *.log > example.log #合并后缀为log的日志文件


cat 1.log 2.log > 3.log #合并指定的日志


4.提取百度蜘蛛(如果有错误,请参考:http://www.lirang.net/post/38.html)


grep "Baiduspider" example.log > baiduspider.txt #提取404、500等其他以此类推


5.同时提取符合两个属性的东西


egrep "Baiduspider|Googlebot" example.log > spider.txt #其他以此类推


6.提取百度蛛蛛访问产生的所有状态码和数量,并按降序排列


cat *.log |grep ‘Baiduspider’ | awk '{print $11}' |sort|uniq -c|sort -nr|awk '{print $2 "\t" $1}' >baiduma.log


或:awk '{print $11}' baidu.log |sort|uniq -c|sort -nr |awk '{print $2 "\t" $1}' >baiduma.log


7.提取百度蜘蛛访问码为200的前100个页面及访问次数,并按降序排列


cat *.log |grep 'Baiduspider' | grep ' 200 ' |awk '{print $5}' | sort | uniq -c | sort -nr | head -n 100 >baiduurl200.log


或:grep ' 200 ' baidu.log | awk '{print $5}' | sort | uniq -c | sort -nr | head -n 100 >baidu200.log


8.提取所有404、301、302等非正常状态码的页面并按降序排列


awk '($11 ~/404/)' baidu.log | awk '{print $11,$5}' | sort >baidu404.log


9.计算蜘蛛抓取的不重复URL个数


cat access.log |grep Baiduspider+ |awk '{print $7}'|sort -u|wc


导出:cat access.log |grep Baiduspider+ |awk '{print $7}'|sort -u >baiduspiderurl.txt


给每个URL加上抓取的次数:cat access.log |grep Baiduspider+ |awk '{print $7}'|sort |uniq -c >baiduspiderurl.txt


10.截取百度蜘蛛访问的来源IP、时间、抓取的URL、返回码和抓取的大小


grep "Baiduspider+" example.log |awk '{print $1 "\t" $4 "\t" $7 "\t" $8 "\t" $9 "\t" $10}' >Baiduspider.txt