大数据越来越受到重视的今天,企业级数据平台搭建,也成为更加普遍的需求。而要搭建起符合自身需求以及提供稳定支持的数据平台系统,基础架构的选型是非常重要的。今天我们就来聊聊大数据基础架构选型。

大数据系统架构基础设施层存储层 大数据基础架构支持_大数据系统架构基础设施层存储层

在企业数据团队当中,数据平台基础架构选型,通常由资深的开发工程师或者架构师来完成。这就要求相关人员,结合具体场景和需求,综合考虑成本、投入等因素,选择合适的技术架构。

大数据基础架构,目前行业当中主流的选择,基本都集中在Hadoop生态下。一方面是因为Hadoop技术的成熟稳定,另一方面也有历史原因,因为很多企业早期的框架,都是基于Hadoop的。

主流大数据基础架构:

传统数据架构

传统数据架构,在进入大数据时代之后,因为数据量、性能等问题导致系统无法正常使用,需要进行升级改造。通常采取的是保留ETL的动作,将数据经过ETL动作进入数据存储。这类数据架构,所能满足的数据分析需求依旧以BI场景为主。

流式架构

在传统大数据架构的基础上,流式架构数据全程以流的形式处理,在数据接入端将ETL替换为数据通道。经过流处理加工后的数据,以消息的形式直接推送给了消费者。存储部分在外围系统以窗口的形式进行存储。适用于预警、监控、对数据有时效性有更高要求的场景。

大数据系统架构基础设施层存储层 大数据基础架构支持_大数据系统架构基础设施层存储层_02

Lambda架构

Lambda架构算大数据系统里面举足轻重的架构,数据通道分为两条分支:实时流和离线。实时流依照流式架构,保障了其实时性,而离线则以批处理方式为主,保障了最终一致性。适用于同时存在实时和离线需求的需求场景。

Kappa架构

Kappa架构在Lambda的基础上进行了优化,将实时和流部分进行了合并,将数据通道以消息队列进行替代。对于Kappa架构来说,依旧以流处理为主,但是数据却在数据湖层面进行了存储,当需要进行离线分析或者再次计算的时候,则将数据湖的数据再次经过消息队列重播一次则可。

大数据系统架构基础设施层存储层 大数据基础架构支持_hadoop_03

关于大数据平台搭建:大数据基础架构选型,以上就是今天的分享内容了。大数据继续发展,企业对于数据平台搭建的需求,将越来越普遍,不管是基于原有的系统平台进行改造,还是搭建全新的平台架构,都需要更多专业人才的支持。