日志服务器架构日志服务器开源

转载

detailtoo 2023-07-05 21:59:14

文章标签 日志服务器架构 ELK 数据 HDFS Hadoop 文章分类 架构后端开发

常见开源的日志系统有Cloudera的Flume、Facebook的Scribe、Apache的Chukwa、LinkedIn的Kafka和Elasticsearch stack（即ELK）。

Scribe

Scribe是Facebook开源的日志收集系统，在Facebook内部已经得到大量的应用。它能够从各种日志源上收集日志，存储到一个中央存储系统（可以是NFS，分布式文件系统等）上，以便于进行集中统计分析处理。它为日志的“分布式收集，统一处理”提供了一个可扩展的，高容错的方案。它最重要的特点是容错性好。其安装非常复杂，主要是因为其依赖的包，需要设置的环境变量非常多，另外，它与Hadoop兼容不好，安装需要技巧。

日志服务器架构日志服务器开源_Hadoop

图 1.1‑3 Scribe系统结构

日志服务器架构日志服务器开源_ELK_02

图 1.1‑4 Scribe系统架构

如上图所示，Scribe从各种数据源上收集数据，放到一个共享队列上，然后push到后端的中央存储系统上。当中央存储系统出现故障时，scribe可以暂时把日志写到本地文件中，待中央存储系统恢复性能后，scribe把本地日志续传到中央存储系统上。

Chukwa

Chukwa是一个非常新的开源项目，由于其属于Hadoop系列产品，因而使用了很多Hadoop的组件（用HDFS存储，用MapReduce处理数据），它提供了很多模块以支持Hadoop集群日志分析。Chukwa中主要有3种角色，分别为：adaptor，agent，collector。其架构如下图所示：

日志服务器架构日志服务器开源_数据_03

图 1.1‑5 Chukwa架构设计

Adaptor可封装其他数据源，包括系统参数数据、应用程序度量数据、Hadoop logs等。

Agent给adaptor提供各种服务，包括：启动和关闭adaptor，将数据通过HTTP传递给Collector；定期记录adaptor状态，以便crash后恢复。

Collector对多个数据源发过来的数据进行合并，然后加载到HDFS中；隐藏HDFS实现的细节，如，HDFS版本更换后，只需修改collector即可。

Kafka

Kafka是2010年12月份开源的项目，采用scala语言编写，使用了多种效率优化机制，整体架构比较新颖（push/pull），更适合异构集群。该系统具有高吞吐率、分布式架构、支持数据加载到Hadoop特点。

Kafka中主要有三种角色，分别为producer（生产推送者），broker（消息中间人）和consumer（日志消费者），其中broker管理一系列topic（消息主题）。

Kafka实际上是一个消息发布订阅系统。producer向某个topic发布推送消息，而consumer订阅某个topic的消息，进而一旦有新的关于某个topic的消息，broker会传递给订阅它的所有consumer。在Kafka中，消息是按topic组织的，而每个topic又会分为多个partition，这样便于管理数据和进行负载均衡。同时，它也使用了zookeeper进行负载均衡。

日志服务器架构日志服务器开源_Hadoop_04

图 1.1‑6 Kafka架构设计

Flume

Flume是cloudera于2009年7月开源的日志系统。它内置的各种组件非常齐全，用户几乎不必进行任何额外开发即可使用。

Flume是一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统。支持在日志系统中定制各类数据发送方，用于收集数据；同时，Flume提供对数据进行简单处理，并写到各种数据接受方(比如文本、HDFS、Hbase等)的能力。

Flume 运行的核心是 Agent。Flume以agent为最小的独立运行单位。一个agent就是一个JVM。它是一个完整的数据收集工具，含有三个核心组件，分别是source、 channel、 sink。通过这些组件， Event 可以从一个地方流向另一个地方，如下图所示

日志服务器架构日志服务器开源_ELK_05

图 1.1‑7 Flume工作流程图

Flume的数据流由事件(Event)贯穿始终。事件是Flume的基本数据单位，它携带日志数据(字节数组形式)并且携带有头信息，这些Event由Agent外部的Source生成，当Source捕获事件后会进行特定的格式化，然后Source会把事件推入(单个或多个)Channel中。你可以把Channel看作是一个缓冲区，它将保存事件直到Sink处理完该事件。Sink负责持久化日志或者把事件推向另一个Source。

为什么选择ELK作为分布式日志搜索引擎呢？

根据2018年最新出炉的数据引擎排名显示，Elasticsearch已进入前十。对比其他数据引擎，ES在日志分析领域优势显著。

表 1.1‑1 开源分布式日志对比

	scribe	chukwa	kafka	cloudera	Elasticsearch
实现语言	C/C++	JAVA	scala	java	java
框架	push/push	push/push	push/push	push/push	push/push
容错性	一般	好	好	好	好
可扩展性	好	好	好	好	好
负载均衡	无	无	使用zookeeper	使用zookeeper	有
store	直接支持HDFS	直接支持HDFS	直接支持HDFS	直接支持HDFS	直接支持HDFS