前几篇文章,基本上已经把指标收集、处理等工作完成,接下来一个比较重要的工作就是数据盘点。数据盘点是根据指标内容,了解业务系统现在的数据情况,如数据字典,数据量等,形成原始系统的数据资产目录。

该步骤是数据建模工程师介入指标开发的切入点,也是业务分析师与数据建模工程师交接的重要步骤。

其实数据盘点是体力活和EQ活,一方面要哄着知道数据结构的老大们告诉我们真实的情况(因为很多表和字段描述估计没记录下来),一方面需要一个一个表去盯。


一、数据盘点工作清单

盘点项

盘点内容

应用系统盘点

应用系统清单,登录地址,登录帐号、密码等

应用系统数据库盘点

应用系统数据库清单,登录地址,登录帐号、密码、分区分库原则等

数据表盘点

数据表、描述、ER关系、数据量、数据增量等

数据字段盘点

盘点数据字段的内容,包括重复度,数据空值率,枚举值含义等

数据模型收集

包括概念、物理、逻辑、主题等模型

一般来说,数据盘点需要干以上四个事情,如果做得比较透彻,侧概念,逻辑,物理,主题等模型都应该能全部整理清晰。只有在盘点过后,才能进去评一个指标的可实行性,包括数据支撑情况,运行数据量和效率等。


二、应用系统及应用数据库盘点

大家只要看个截图,应该就知道怎么弄了

构建数仓指标体系5:数据盘点(即指标技术侧梳理)_数据治理

这个表需要特别注意的是,需要记录分库的原则,有需要甚至可以单独表格管理,因为很多数据量比较大的系统,这些都是很常见的,若现在不进行梳理,后续做数据采集的时候就会很迷茫。


三、数据表盘点

构建数仓指标体系5:数据盘点(即指标技术侧梳理)_数据治理_02

看图应该就能知道盘点些什么内容了, 不细说


四、数据字段盘点

构建数仓指标体系5:数据盘点(即指标技术侧梳理)_数据资产_03

看图应该能知义,这里重点提一下后面黄色部分,其实是梳理ER关系


五、物理或逻辑数据模型

不解释了哈,有就拿过来可以了, 不过我相信99%的公司没做好的


六、小结

在数据盘点中,核心是要盘点几个事,其余大家斟酌着来:

  • 数据量以及增量
  • 字段描述以及ER关系
  • 字段枚举值含义