其中:
- FA是参考GA/BA/TA写的一个精简版的页面JS嵌码,抓取用户页面行为,主要是鼠标点击、按钮点击事件。由于不同页面可能需要抓取其特有的页面元素或事件,故FA也支持针对不同页面嵌入不同的业务子嵌码(通过Nginx拦截后append对应的子嵌码)。
- 充分利用Netty NIO的特性,搭建一个收集页面用户行为数据的HTTP服务器。
- MetaQ是淘宝开源的分布式消息中间件,此处使用的是@AVOS-dennis fork的一个分支。Netty收集到页面行为数据之后喂给MetaQ Broker,后续Storm可以根据不同的分析指标和逻辑,定义不同Group的Consumer Spout,从MetaQ Broker拉数据进行分析处理。
- ZooKeeper是一个分布式协调系统,上述的MetaQ利用ZooKeeper实现分布式。Producer(Netty Server)和Consumer(Storm Spout)通过ZooKeeper获取MetaQ Broker、Topic、Partition列表,同时ZooKeeper还存储消费进度OffSet等信息。
- Storm是Twitter开源的分布式实时流计算系统(实时处理领域的Hadoop),核心使用Clojure(一种Lisp方言,函数式语言)实现, 但基于其开发应用几乎可以使用任何语言。其每秒每个节点可以处理数以百万计的消息,而且具有保证每条消息都得到处理、支持事务等特性,具体后续博文再介 绍。
- 经过Storm分析处理后的结果保存在HBase或MySQL中,如果要支持事务的话,建议选择MySQL。
- Redis是一个开源的、基于内存的、键值对存储数据库(NoSQL)。与Memcache比起来,Redis一方面支持丰富的数据类型如Map、Set、List等,同时支持持久化。这里主要利用它来实现高效缓存。