Flume由Cloudera于2009年7月开源,后变成Apache的顶级项目之一,由Java语言开发,致力于解决大量日志流数据的迁移问题。日志是大数据分析领域的主要数据来源之一,如何将线上成百上千的业务系统日志高效、可靠的迁移到我们的hdfs中去,Flume提供了一个很好的解决方案。Flume——一个纯粹为流式数据迁移而生的分布式服务。
更多业务,从而增加服务提供能力。而在分布式系统中,部署的各个业务模块功能是不相同的,比如分布式系统中有订单模块、用户模块、交易模块和营销模块等,但为了保证各个业务模块的可靠性和服务输出能力,每个模块都需要集群部署。
(Generation),第一代指0.9.x版本,现在叫做Flume OG,即Flume老的一代,Flume OG中依赖了ZooKeeper,所以采用的是主从的设计,如下图:

但从1.x版本开始,Flume去掉了ZooKeeper的依赖,变成了一种更纯粹流数据传输工具,即第二代Flume NG,如下图:

关于OG和NG的差别,大家可以在网上和Flume官网查询资料对比,本文针对的是Flume NG。
















