也许各位常常看到别人在群里聊天,某某人的网站出现什么问题了。。。别人建议查看网站的日志文件,分析蜘蛛的爬取情况。可是如何去分析日志文件却很少有人去提,接下来我会大概介绍一下,如何去分析网站的日志文件,找出网站可能出现的问题等等。

一般我们的服务器是可以开启蜘蛛爬取记录文件的,如果没有开启这功能,可联系空间商要求开通此功能,通过分析web log,找出自己站的问题所在。

日志文件一般是log为扩展名的文件,有的是GZ压缩后的文件,没有关系,我们下载下来,可以直接用记事本打开log文件,可看到里面的爬取记录。

格式大致都是如下这种:

220.181.108.175 – – [25/Jul/2012:11:54:58 -0700] "GET /sitemap.xml HTTP/1.1" 304 0 "-" "Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)"

说明:第一个IP是蜘蛛的IP地址,依次为抓取时间,get的文件名,协议,状态码,百度蜘蛛。

请特别注意一下,状态码,如果网站出现很多404,需要在robots里屏蔽或者汇总提交给站长工具至搜索引擎,否则网站在搜索引擎眼里就是个很不正常的站点,而且网站的抓取也很有问题,需要正视这个问题,因为不少人的站点都是这个原因引起的,而自己却浑然不知。

当然状态码只是一个方面,我们可以分析,蜘蛛每次来的时间大概是什么时候,每次蜘蛛来网站后共抓取多少个页面,每次在网站上停留多少时间。通过汇总一个时间段的web log,可以分析出自己页面的哪些目录还没有被搜索引擎抓取到,自己是否可以在适当的位置展示这些页面,或者通过站长工具的sitemap提交,多做些高质量的外链来达到收录效果。

相信我,利用好web log会让你受益无穷!