一、数据中台是什么?

  数据中台是一套可持续“让企业的数据用起来”的机制,是一种战略选择和组织形式,是依据企业特有的业务模式和组织架构,通过有形的产品和实施方法论支撑,构建的一套持续不断把数据变成资产并服务于业务的机制。数据中台是处于业务前台和技术后台的中间层,是对业务提供的数据能力的抽象和共享的过程,数据中台通过将企业的数据变成数据资产,并提供数据能力组件和运行机制,形成聚合数据接入、集成、清洗加工、建模处理、挖掘分析,并以共享服务的方式将数据提供给业务端使用,从而与业务产生联动,而后结合业务系统的数据生产能力,最终构建数据生产>消费>再生的闭环,通过这样持续使用数据、产生智能、反哺业务从而实现数据变现的系统和机制。

智慧中台业务架构技术方案_数据质量

二、企业建立数据中台的背景

  数据找不到,找不快,即便找到了也看不懂逻辑,看懂了也难以确定是否可用,使用后也有可能达不到预期效果,数据系统不断发展建设,数据的维度和口径也不断调整,很多报表,查询接口重复建设,重复沟通,需求开发响应时间长。    

  数据模型扩展性差,错误数据发现不及时,影响数据完整性,一致性,准确性,运维效率低下,数据质量差,获取难度高,是多数企业在发展过程中遇到的难题与瓶颈。

三、数据中台的意义

1. 数据中台是企业数据化建设的基础设

  数据中台解决了企业全域数据汇聚的问题,打通以往的数据孤岛,沉淀数据资产,实现数据之间的价值共通,可基于数据中台满足复杂的数据应用场景。

2. 提升数据质量

  数据中台基于Onedata方法论构建统一的公共层,保证了源头数据的一致性,且实现数据按照统一口径只加工一次,实现全局指标、标签的统一,大大提高数据质量。

3. 建立数据标准

  数据中台建设会促使企业还要建设数据标准或规范,比如数据接入规范、数据集成规范、数据存储规范、数据处理规范、数据使用权限规范、数据共享规范、数据销毁规范、数据安全规范等。    

  这些标准都是数据中台建设阶段也需要建设的体系。有数据标准/规范体系护航,数据中台才能更好地运转;也只有依托数据中台,数据标准才能更好地执行和落地。

4. 节约企业数据应用成本

  基于数据中台的元数据管理的数据血缘,可以实现数据投入产出比的评估,及时发现并下线低ROI的数据,也避免数据重复加工。由此降低数据的研发、存储和计算成本,降低企业数据应用成本。

  下面分别从两个角度去阐述所产生的降本和增效价值:

  降本:数据中台通过复用数据能力组建,快速完成数据链路的搭建,减少重复研发的人力和维护成本;

  ➢增效:通过快速复用组建完成数据链路搭建,让数据从接入>加工>使用的整个周期缩短,减少业务端的数据获取等待时延,为业务方赢得更多的展业时间和机会。

  通过提供赋能于具体业务场景的数据应用,帮助业务端更精准的发现客户、分析客户等,用数据滋养各线业务,使整个业务运营过程体验更友好和高效,并缩短运营周期。

5. 健全各部门协作机制

  数据中台承担着一定的实现企业战略目标的使命,数据中台的建设过程势必需要对应的组织和制度来支撑中台的建设和运营。数据中台这种体系化工程将横向拉通企业数据的相关方,包括中台建设团队、中台运维团队、数据产品经理团队、数据运营团队等,形成企业真正的数据组织。利用系统化的解决方案配合一定的管理机制,实现业务人员、数据研发、产品经理、数据分析师等角色的高效协同,提升各角色之间的协作效率。

四、数据中台的职能

  数据中台是通过数据技术,对海量数据进行采集,存储,加工,计算,同时统一标准和口径的工具,依据企业特有的业务模式,建设一套可持续不断把数据变成资产并服务于业务的系统性工程。

  优顶特技术有限公司作为一家专注为进口贸易供应链企业赋能的互联网企业,通过“技术+方法论+工具”沉淀搭建的数据中台以业务驱动为第一原则,能同时支撑多个业务线,让业务之间的信息形成交互和增强联系的工程体系。

   一方面中台系统能避免重复工作,减少时间成本的浪费;另一方面也能同时贯穿联合多个产品,多条业务线实现数据赋能。

  数据中台一定是基于大数据体系的,内在是数仓,底座是大数据计算平台,面对数据开发复杂的流程:从数据集成、数据开发再到数据测试、数据发布、任务运维等繁杂的工作流程,我们需要高效的平台支撑。

五、数据中台技术

1. 数据仓库+数据服务组件

➢理论:数仓分层架构 + 调度管理系统 + 可视化平台

➢工具:MYSQL(HIVE)+ DOLPHINSCHEDULER + DAVINCI

(1) 数仓分层架构

  在大规模数据应用场景下,数据应用开发过程往往需要拆分多步骤进行,考虑用空间换时间的方式实现,与此同时,在对业务非常了解的前提下,通过创建业务抽象化的通用数据模型,可以支撑相应主题域的多个分析报表开发,减少出现重复开发的情况,提高空间利用率,而且通过数仓分层将明细层到应用层进行逻辑拆解或合并,分为多个ETL过程,将复杂的需求问题简单化,在特定业务场景下,通过分层可以更方便对不同的数据维度,不同的数据类型进行权限管理,以及针对不用的开发和业务人员屏蔽敏感数据。

智慧中台业务架构技术方案_大数据_02

(2) 调度管理系统

  大数据建设中,除了会考虑数据如何合理存储及利用,还需要关注的重点是在正确的时间点启动正确的ETL(Extract-Transform-Load)作业,保证作业按照设定的正确依赖关系及时执行,选择一款成熟易用兼容大量组件,且易于管理和维护的作业调度系统。

  Dolphinscheduler作为DAG工作流调度系统,其核心的分布式易扩展的可视化工作流,拥有丰富灵活的依赖触发机制,优先级任务管理,业务隔离,权限管理,完备的监控报警通知等,负载均衡,弹性扩容,状态同步和失效停止也是重点考虑的特性。

智慧中台业务架构技术方案_大数据_03

(3) 可视化平台

  作为大数据建设体系通向终点最后一段路中,可视化工具选型及设计思想是从业务线、功能模块易用性考虑的,可视化应用平台Davinci支持了各种数据可视化展示功能,支持JDBC数据源,同时提供SQL编写数据处理逻辑的执行窗口,用户项目管理,支持拖拽式编辑可视化展示,多种不同的图表交互能力和定制化能力,以应对不同业务的大屏展示。

 

智慧中台业务架构技术方案_大数据_04

六、数据中台架构设计(离线)

智慧中台业务架构技术方案_大数据_05

1. 计算平台+算法模型

➢理论:流 + 批架构

➢工具:MapReduce + Spark + Flink    

  在大数据时代背景下,单数据库能力有限,只能期望硬件(CPU、内存)升级,而且成本会越来越高。而分而治之是Hadoop生态分布式系统的核心,将巨大的数据集合进行切分,然后分发到集群上的机器进行存储和执行计算任务,各自执行Map和Reduce计算过程,最后汇聚成想要的输出结果。

(1) MapReduce全流程   

  相比于MapReduce所有操作结果都要刷写磁盘落地一次文件,耗费大量的时间,Spark利用其RDD(弹性分布式数据集)的属性,通过将所有操作都在内存里执行,没有了磁盘刷写,将数据处理的效率高了很多倍,对于实时要求不苛刻的业务需求而言,Spark是不错的选择,灵活丰富的窗口函数,UDF函数适合大数据分析查询以及算法模型建设。

智慧中台业务架构技术方案_数据_06

(2) Spark全流程    

  基于微批处理近似于流的认知,Flink是真正实现了流式数据处理,拥有极低的延迟,同时引入的CheckPonit机制、Watermark机制,确保了数据不丢,断线续传,不重复,还解决了数据乱序的问题,达成了exactly-once语义,完美契合了我们对实时要求高的业务需求。

智慧中台业务架构技术方案_数据_07

(3) Flink全流程

智慧中台业务架构技术方案_数据_08

七、数据中台架构设计(实时)

智慧中台业务架构技术方案_数据_09

1. 大数据分布式集群

➢理论:分布式计算+服务器集群

➢工具:HDFS + YARN + ZOOKEEPER    

  以HDFS分布式文件系统为核心搭配Yarn的资源调度系统是支撑数据中台的基础技术体系,提供了大数据运行所必需的计算、存储资源。其具备的高容错性,搭建成本低,集群动态平衡,可高效利用的优点是我们选型过程中的考虑因素。

 (1) HDFS + YARN基础原理架构    

  搭建分布式集群,除了会应用分布式文件系统(HDFS),Zookeeper作为一个分布式的服务框架也是必不可少的数据组件,主要用来解决分布式集群中应用系统的一致性问题,例如维护配置信息同步,自动选举集群管理防止单节点故障,多台Server之间的数据状态同步,提供跨进程或者不同Server之间的共享锁等。

智慧中台业务架构技术方案_数据_10

 (2) Zookeeper集群模式

智慧中台业务架构技术方案_数据_11

  写在最后,企业在选择是否构建数据中台的时,可以从以下几个方面思考:    

  首先,看企业是否有一定的信息基础,是否实现了业务数据化的过程,有了一定的数据沉淀,数据中台,顾名思义,数据是基础,毕竟巧妇难为无米之炊;    

  其次,企业是否存在业务数据孤岛,是否有需要整合各个业务系统的数据,进行关联分析的需求,如果有,需要通过构建数据中台,打通数据孤岛,整合各业务系统数据,满足关联分析的需求。    

  最后,在日常的数据使用过程中是否遇到指标口径不一致、需求响应速度慢、数据质量差、数据成本高等痛点。

  如果满足前两个条件,且在数据应用中存在以上所述的一些痛点,那建议你可以考虑将数据中台项目提上日程了。