目前大型互联网企业每天日志量以亿为单位,面临的挑战已经不是采集的技术本身,而是如何实现日志数据的结构化。构建规范制定–元数据注册–日志采集–自动化计算–可视化展现的一体化系统
场景一:日志分流1)当代互联网经常出现短时间内流量热点爆发,集中统一的采集方案已不能满足需求。
2)在日志解析和处理的过程中必须考虑以下几点:
①业务分流:要求分离的业务之间没有明显影响,爆发热点不影响日常业务处理
②日志优先级控制
③根据业务特点的定制处理
分治策略是核心。日志请求URL根据业务的变化而不同,尽早的进行分流,降低日志处理过程中的分支消耗。
场景二:采集计算一体化
随着数据量的增大,采集–分类–处理的流程是的系统维护成本猛增,同时传统的分类是通过URL路劲正则匹配的方式,大量的匹配会消耗巨大的服务器硬件资源,因此必须将采集–计算作为一个整体来设计系统。阿里制定了两套日志规范和与之对应的元数据中心。
1)对于PV日志:通过简单的配置部署,用户可将任意页面的流量进行聚类分析并查询聚合分析的结果,包括:
2)对于交互日志:通过注册与所在页面独立的控件,用户可以获取对应的埋点代码,自动获取实时统计数据和可视化试图。
场景三:大促保障
1)服务器推送配置到客户端
2)日志分流,结合日志优先级和日志大小拆分日志服务器
3)实时处理的优化
基于以上三点,在流量爆发时评估峰值数据量,通过服务器端推送配置客户端,对非重要日志进行限流,错峰后恢复。推送的配置包括: