数据中台系统的一些思路。 *** 引言** 企业借助于大数据/数据湖项目,一般同时需要完善对企业数据的梳理:对企业数据资产数据盘点,完善数据治理相关流程。对内便于数据用户使用数据。对外满足部监管对多种数据口径要求。 *** 基本解决思路** 这类问题的基本解决思路是从元数据管理(包括业务,技术)角度完善数据生命周期管理。这里的元数据包含:
- 传统意义的数据字典 (表单,字段的含有)
- 业务元数据梳理,包括业务指标,统计口径等 (通常对应 维度数据,业务描述数据code table, mapping table 的梳理)
- 数据 data lineage, audit
*** 挑战及现有问题** 这类工具市场上比较多,传统的数仓产品都有元数据管理工具。但多数存在些问题如:
- 对数据用户不友好。这里数据用户包括a)数据分析人员 b) 数据维护操作人员
- 落地困难:不能很好的融合到企业现有的开发流程中
- 传统企业有大量遗留系统,这些系统本身的元数据(数据描述)由于历史原因不太完善。在遗留系统数据集成到大数据/数据湖的过程中,这些元数据需要在项目过程中完善,但缺乏工具,或现有工具不友好。
** 产品化及切入点选择*** 基于以上分析,数据平台(中台)产品中元数据管理部分可以采用以下设计思路:
- 借助图数据库提升前端数据展示
- 借助NLP及传统元数据数据管理提升数据关联关系分析
- 开发定制工具针对遗留系统及项目开发流程元数据进行维护。(进一步解释以下,在多数数仓,大数据项目中,业务数据分析人员均需准备Mapping 文档。目前mapping 文档多以 excel 形式存在,不利于维护,共享,进一步挖掘。可以开发定制在线mapping文档工具作为一个切入点)
- 参照(逻辑)架构图:
目前市场上已经用一些类似产品,也可以做个参照:
- http://www.stargraph.cn/ 金融智能 BDP
- https://memect.cn/ 知识图谱技术
- http://www.primeton.com/ 元数据平台
- https://www.topquadrant.com/