web日志 文件是一个保存在 web服务器上的文本文件

互联 网的普及使得在当今高度信息化的社会里 ,web成为 目前最大的信息系统… 。其 中 web日志 中包含了大量 的用户访 问的信息 ,通过对 web日志的挖掘,我们可以得到许多有价值的信息。web日志 文件是一个保存在 web服务器上的文本文件 ,一般以 txt格式存储 J。



应用场景

集团搜索刚上线不久,日志量并不大 。这些日志分布在 5 台前端机,按小时保存,并以小时为周期定时将上一小时产生的数据同步到日志分析机,统计数据要求按小时更新。这些统计项,包括关键词搜索量 pv ,类别访问量,每秒访问量 tps 等等。

基于hive,我们将这些数据按天为单位,每天一个表,后台脚本根据时间戳将每小时同步过来的5台前端机的日志数据合并成一个日志文件,导入到hive系统。每小时同步的日志数据被追加到当天数据表中。导入完成后,当天各项统计项将被重新计算并输出统计结果。

以上需求若直接基于Hadoop开发,需要自行管理数据,针对多个统计需求开发不同的map/reduce运算任务,对合并、排序等多项操作进行定制,并检测任务运行状态,工作量不不小。但使用hive,从导入到分析、排序、去重、结果输出,这些操作都可以运用hql语句来解决。一条语句经过处理被解析成几个任务来运行,即时是关键词访问量增量这种需要同时访问多天数据的较为复杂的需求也能通过表关联这样的语句自动完成,节省了大量工作量。



统计项

统计数据要求按小时更新,包括关键词搜索量 pv ,类别访问量,每秒访问量 tps 等等