在大数据系统平台的运行当中,对于日志的收集和传输,往往由Flume组件来负责,基于分布式系统,执行日志收集任务。今天的大数据学习分享,我们就主要来讲讲Flume组件入门基础。
Flume组件的诞生,最初来自cloudera软件公司,在2009年被捐赠给了Apache基金会,成为Hadoop生态圈的重要组件之一,也是Apache的顶级项目之一。
Flume简介
Flume定义,是一个分布式、高可靠、高可用的海量日志采集、聚合、传输系统。在大数据平台当中,负责收集例如日志,事件等数据资源,并且将这些数量庞大的数据从各项数据资源中集中起来存储。
支持在日志系统中定制各类数据发送方,用以采集数据,也提供对数据进行简单处理,并写到各种数据接收方的能力。简单来说:Flume是实时采集日志的数据采集引擎。将数据流,如日志数据从各种网站服务器上汇集起来存储到HDFS,HBase等集中存储器中。
Flume应用场景
在实际开发当中, Flume的使用不仅限于日志数据聚合。由于数据源是可定制的,因此Flume可用于传输大量事件数据,包括但不限于网络流量数据,社交媒体生成的数据,电子邮件消息以及几乎任何可能的数据源。
Flume优势
Flume可以将应用产生的数据存储到任何集中存储器中,比如HDFS,Hbase。
当收集数据的速度超过将写入数据的时候,也就是当收集信息遇到峰值时,这时候收集的信息非常大,甚至超过了系统的写入数据能力,这时候,Flume会在数据生产者和数据收容器间做出调整,保证其能够在两者之间提供一共平稳的数据。
Flume的管道是基于事务,保证了数据在传送和接收时的一致性。
Flume具备可靠性,高容错性,可升级,可定制,易管理。
支持各种接入资源数据的类型以及接出数据类型。
支持多路径流量,多管道接入流量,多管道接出流量,上下文路由等。
关于大数据学习,Flume组件入门简介,以上就为大家做了简单的介绍了。在大数据技术生态当中,Flume作为日志收集系统,也常常与Kafka配合,共同完成平台当中的各项数据采集需求。