转载
apache的日志文件记录了服务器对每次请求做出响应的有关信息。分析日志文件可以提供重要的统计数据,如访问量最大或访问最频繁的web页;也可以查看服务器的错误记录,从而获得和安全问题相关的信息。用户需要高度重视日志文件,要经常查看,尤其是错误信息日志文件,以便能尽快发现已经发生的问题或可能存在的问题。

很多时候,除非用户注意到apache有些异常,否则都是日志文件中不寻常的项目最先指示出有人***了系统。***也知道这一点,高明的***会用vi之类的工具编辑遭受***的系统的日志文件,抹去***的痕迹。

apache默认保留两个日志文件:访问日志和错误日志。

访问日志
redhat linux 7.1的访问日志文件默认为/var/log/httpd/access_log。这是apache标准的日志文件。访问日志的作用是记录所有对apache服务器的访问活动,用户可以借此查阅是哪些人在什么时间什么地点浏览了网站的哪些内容。

下面是访问日志中一个典型的记录:

210.12.195.6 - - [10/aug/2002:14:47:37 -0400] "get / http/1.0" 200 654

  ①  ②③     ④         ⑤    ⑥ ⑦

这行内容由7项构成,上面的例子中有两项空白,但整行内容仍旧分成了7项。

①是远程主机的地址,即它表明访问网站的究竟是谁。在上面的例子中,访问网站的主机是210.12.195.6。可以通过nslookup之类的工具查找dns。可以看出,仅仅从日志记录的第一项出发,我们就可以得到有关访问者的不少信息。

默认情况下,①只是远程主机的ip地址,也可以要求apache查出所有的主机名字,并在日志文件中用主机名字替代ip地址。然而,这种做法通常不值得推荐,因为它将极大地影响服务器记录日志的速度,从而也就降低了整个网站的效率。另外,有许多工具能够将日志文件中的ip地址转换成主机名字,因此要求apache用主机名字替代ip地址是得不偿失的。

然而,如果确实有必要让apache找出远程主机的名字,用户可以在httpd.c

hostnamelookups on

如果hostnamelookups设置成double而不是

上例日志记录中的②是空白,用一个“-”占位符替代。实际上绝大多数时候这一项都是如此。这个位置用于记录浏览者的标识,这不只是浏览者的登录名字,而是浏览者的e-mail地址或者其他惟一标识符。这个信息由identd返回,或者直接由浏览器返回。很早的时候,当netscape 0.9还占据着统治地位时,这个位置往往记录着浏览者的e-mail地址。然而,由于有人用它收集邮件地址和发送垃圾邮件,所以它未能保留多久,几乎所有的浏览器都取消了这项功能。因此现在在日志记录的第二项看到e-mail地址的机会已经微乎其微了。

日志记录中的③也是空白。这个位置用于记录浏览者进行身份验证时提供的名字。当然,如果网站的某些内容要求用户进行身份验证,那么这项信息是不会空白的。但对于大多数网站来说,日志文件的大多数记录中这一项仍旧是空白的。

日志记录中的④是请求的时间。这个信息用方括号“[ ]”包围,而且采用所谓的“公共日志格式”或“标准英文格式”。因此,上例日志记录表示请求的时间是2002年8月10日星期六14:47:37。时间信息最后的“-0400”表示服务器所处时区位于utc之前的4小时。

日志记录中的⑤是整个日志记录中最有用的信息,它记录了服务器收到的是一个什么样的请求。该项信息的典型格式是“method resource protocol”,即“方法 资源 协议”。

在上例中,method是get,其他经常可能出现的method还有post和head。此外还有不少可能出现的合法method,但主要就是这3种。

resource是指浏览者向服务器请求的文件或url。在这个例子中,浏览者请求的是“/”,即网站的主页或根。大多数情况下,“/”指向documentroot目录的index.html文件,但根据服务器配置的不同,它也可能指向其他文件。

protocol通常是http,后面再加上版本号。版本号或者是1.0,或者是1.1,出现1.0的时候比较多。http协议是web得以工作的基础,http/1.0是http协议的早期版本,而1.1是最近的版本。当前大多数web客户程序仍使用1.0版本的http协议。

日志记录中的⑥是状态代码,记录了请求是否成功,或者遇到了什么样的错误。大多数时候,这项值是200,它表示服务器已经成功地响应浏览器的请求,一切正常。此处不给出状态代码的完整清单及解释它们的含义,请参考相关资料了解这方面的信息。但一般地说,以2开头的状态代码表示成功,以3开头的状态代码表示由于各种不同的原因,用户请求被重新定向到了其他位置,以4开头的状态代码表示客户端存在某种错误,以5开头的状态代码表示服务器遇到了某个错误。

日志记录中的⑦表示发送给客户端的总字节数。它告诉用户传输是否被打断(即该数值是否和文件的大小相同)。把日志记录中的这些值加起来就可以得知服务器在一天、一周或者一月内发送了多少数据。

注意,由于日志文件是由apache用户打开的(在httpd.c



错误日志
redhat linux 7.1的错误日志文件默认为/var/log/httpd/error_log。

错误日志无论在格式上还是在内容上都和访问日志不同。然而,错误日志和访问日志一样也提供丰富的信息,可以利用这些信息分析服务器的运行情况、哪里出现了问题。

错误日志记录了apache服务器运行期间遇到的各种错误,以及一些普通的诊断信息,比如apache服务器何时启动、何时关闭等。

可以在httpd.c

大多数情况下,日志文件中的内容分属两类:文档错误和cgi错误。但是,错误日志中偶尔也会出现配置错误,另外还有前面提到的服务器启动和关闭信息。

文档错误和服务器返回的400系列代码相对应,最常见的就是404错误——document not found(文档没找到)。404错误在用户请求的资源(即url)不存在时出现,它可能是因为用户输入的url错误,或者因为apache服务器上原来存在的文档因故被删除或移动。除了404错误以外,用户身份验证错误也是一种常见的错误。

当用户不能打开服务器上的文档时,错误日志中出现的记录如下所示:

[sat aug 10 9 09:18:14 2002] [error] [61.181.52.23] file does not exist: /var/www/html/ij

可以看到,正如访问日志access_log文件一样,错误日志记录也分成多个项。

错误记录的开头是日期/时间标记,注意它们的格式和access_log中日期/时间的格式不同。access_log中的格式被称为“标准英文格式”。

错误记录的第二项是当前记录的级别,它表明了问题的严重程度。这个级别信息可能是loglevel命令的文档中所列出的任一级别,error级别处于warn级别和crit级别之间。404属于error错误级别,这个级别表示确实遇到了问题,但服务器还可以运行。

错误记录的第三项表示用户发出请求时所用的ip地址。

记录的最后一项才是真正的错误信息。对于404错误,它还给出了完整路径指示服务器试图访问的文件。当用户料想某个文件应该在目标位置却出现了404错误时,这个信息是非常有用的。此时产生这种错误的原因往往是由于服务器配置错误、文件实际所处的虚拟主机和用户料想的不同,或者其他一些意料不到的情况。

由于用户身份验证问题而出现的错误记录如下所示:

[sat aug 1 22:13:21 2002] [error] [client 61.181.52.23] user

bright@hacker.com.cn: authentication failure for "/cgi-bin/hirecareers/company.cgi": password mismatch

注意,由于文档错误是用户请求的直接结果,因此它们在访问日志中也会有相应的记录。

错误日志最主要的用途是诊断行为异常的cgi程序。为了进一步分析和处理的方便,cgi程序输出到stderr(standard error,标准错误设备)的所有内容都将直接进入错误日志。这意味着,任何编写良好的cgi程序,如果出现了问题,错误日志就会记录有关问题的详细信息。

然而,把cgi程序错误输出到错误日志也有它的缺点,错误日志中将出现许多没有标准格式的内容,这使得用错误日志自动分析程序从错误日志中分析出有用的信息变得相当困难。

由于cgi程序运行环境的特殊性,如果没有错误日志的帮助,大多数cgi程序的错误都将很难解决。

有不少人在邮件列表或者新闻组中抱怨说自己有一个cgi程序,当打开网页时服务器却返回错误,比如“internal server error”。可以肯定,这些人没有看过服务器的错误日志,或者根本不知道错误日志的存在。绝大多数情况下,错误日志能够精确地指出cgi错误的所在及如何修正这个错误。


apache的日志文件(2)


定制日志
用户可以使用日志格式命令控制日志文件的信息。在前面已经提到,在httpd.c "%a %l"命令,可以把发出http请求浏览器的ip地址和主机名记录到日志文件。出于安全的考虑,至少应该验证那些失败的web用户,在http.c "%401u"命令可以实现这个目的。这个命令还有其他的许多参数,用户可以参考apache的文档。另外,apache的错误日志文件对于系统管理员来说也是非常重要的,错误日志文件中包括服务器的启动、停止及cgi执行失败等信息。

apache在httpd.c

logformat "%h %l %u %t "%r" %>s %b" common

该命令创建了一种名为“comm

下面是格式串的可用的变量及含义。

l %...a:远程ip地址。

l %...a:本地ip地址。

l %...b:已发送的字节数,不包含http头。

l %...b:clf格式的已发送字节数量,不包含http头。例如当没有发送数据时,写入“-”而不是0。

l %...{foobar}e:环境变量foobar的内容。

l %...f:文件名字。

l %...h:远程主机。

l %...h:请求的协议。

l %...{foobar}i:foobar的内容,发送给服务器的请求的标头行。

l %...l:远程登录名字(来自identd,如提供的话)。

l %...m:请求的方法。

l %...{foobar}n:来自另外一个模块的注解“foobar”的内容。

l %...{foobar}o:foobar的内容,应答的标头行。

l %...p:服务器响应请求时使用的端口。

l %...p:响应请求的子进程id。

l %...q:查询字符串(如果存在查询字符串,则包含“?”后面的部分;否则,它是一个空字符串)。

l %...r:请求的第一行。

l %...s:状态。对于进行内部重定向的请求,这是指原来请求的状态。如果用“%...>s”,则是指后来的请求。

l %...t:以公共日志时间格式表示的时间(或称为标准英文格式)。

l %...{format}t:以指定格式format表示的时间。

l %...t:为响应请求而耗费的时间,以秒计。

l %...u:远程用户(来自auth;如果返回状态(%s)是401则可能是伪造的)。

l %...u:用户所请求的url路径。

l %...v:响应请求的服务器的servername。

l %...v:依照usecan

在所有上面列出的变量中,“...”表示一个可选的条件。如果没有指定条件,则变量的值将以“-”取代。分析前面来自默认httpd.c

有时候用户只想在日志中记录某些特定的、已定义的信息,这时就要用到“...”。如果在“%”和变量之间放入了一个或者多个http状态代码,则只有当请求返回的状态代码属于指定的状态代码之一时,变量所代表的内容才会被记录。例如,如果用户想要记录的是网站的所有无效链接,那么可以使用下列命令:

logformat %404{referer}i brokenlinks

反之,如果想要记录哪些状态代码不等于指定值的请求,只需加入一个“!”符号即可。

日志分析
尽管日志文件中包含着大量有用的信息,但这些信息只有在经过深入挖掘之后才能够最大限度地发挥作用。

现在面临的问题是,虽然日志文件中包含了大量的信息,但这些信息对于管理、规划网站却没有多少直接的帮助。为了管理和规划网站,需要知道:有多少人浏览了网站、他们在看些什么、停留了多长时间、他们从哪里得知这个网站,等等。所有这些信息就隐藏于(或者可能隐藏于)日志文件之中。

有许多信息可以用日志文件来记录,其中包括下列内容。

l 远程主机的地址

“远程主机的地址”和“谁在浏览网站”差不多,但并不等同。具体地说,远程主机的地址显示了浏览者来自何方,比如它可能是bright.hacker.com.cn或者suying.pcfriend.com.cn。

l 浏览时间

浏览者何时开始访问网站?从这个问题的答案中能够了解不少信息。如果网站的大多数浏览者都在早上9:00和下午4:00之间访问网站,那么可以相信网站的浏览者大多数总在工作时间进行访问;如果访问记录大多出现在下午7:00到午夜之间,可以肯定浏览者一般在家里上网。当然,从单个访问记录能够得到的信息非常有限,但如果从数千个访问记录出发,就可以得到非常有用和重要的统计信息。

l 用户所访问的资源

网站的哪些部分最受用户欢迎?这些最受欢迎的部分就是应该继续加以发展的部分。网站的哪些部分总是受到冷落?网站中这些受到冷落的部分或许隐藏得太深,或许确实没有什么意思,此时就得想办法加以改进。当然,网站中的一些内容,比如法律上的声明,虽然很少有人访问,但却不应该随便地改动它们。

l 无效链接

日志文件还能够显示哪些东西不能按照用户所想像的那样运行。网站中是否存在错误的链接?其他网站链接过来时有没有接错url?是否存在不能正常运行的cgi程序?是否有搜索引擎检索程序每秒发出数千个请求,从而影响了本网站的正常服务?这些问题的答案都可以从日志文件中找到线索