指标资料组织整理,真正的情况更多是一个跳跃的过程,而不是一个循序渐进的过程,因此,本文建议大家作为一个待办事项参考来用。数据体系在全世界实话说也没有一个非常标的标准,标准化程度越高,消费工作量越大,所以建议大家按实际资源情况看着办。

资料重组后,可用指标清单应该就出来的了,下一篇文章会介绍原子指标、派生指标、复合指标的拆装过程,这个过程很难用文字表述的,我得构思一下。。。


一、数据标准化

1.1 组织架构标准化

组织架构标准化的主要工作是,把指标和报表中的“管理部门”,与HR提供的组织架构进行匹对,并且标准化。因为这只是一个比较简单的替换过程,模版没有进行更改,我就不举例了


1.2 维度标准化

维度标准是一个比较重要的工作,主要是把维度的名称标准化,而不是维度的详细内容。

如物料、配件两个维度有可能是代表同一个事,所以要把相关的标准化工作做一个影射(mapping)。一般我会做一个对照关系表,以便让技术人员有取值的标准,同时业务部门也能延用他们原来的称谓。

另外,标准化的时候,建议把未标准化指标的维度所在库表记录,以便后续技术人员可以更方地进行建模、数据清洗和数据影射。

构建数仓指标体系3:指标业务侧梳理_指标体系


1.3 时间维标准化

时间维我是单拎出来了,处理过程相对简单,全数仓统一就可以了,影射这个必要性不大,因为“天”和“日”相关没有人会理解错的。

另外,我们在做时间维的时候,一般还会做扩充,当然这个扩充肯定是以企业的自身为基础的,先看下图:

构建数仓指标体系3:指标业务侧梳理_数据仓库_02

上面写的特殊节日,类似白色情人节这种商家做出来的节日。有了时间维后,我们以后做很多分析便有了标准。其实我们还可以继续扩展的,如把中午11:30~13:00定为高峰时间段(餐饮行业)等。


1.4 应用场景标准化

嗯。。。互联网等基本上做不到,但做不到也提一下,表示不是没考虑到,而是无法实现。。。大家也可以拍砖。。。

当然,在非互联网领域,如金融等,其实他们的主题、应用场景等相对固定,当然也与他们用管理视角看问题有关,如TeraData金融10的大主题,见下图:

构建数仓指标体系3:指标业务侧梳理_数据资产_03



1.5 主数据及参考数据标准参照

这块主要是对一下哪些是系统用到的主数据与参考数据,以他们为准就可以了


1.6 业务术语标准化

业务术语标准化,核心的逻辑要把业务术语区分企业级的,还是部门级别的,若是企业级别的业务术语,需要进行相关的标准化动作,如下图,黄色的是新增的字段:

构建数仓指标体系3:指标业务侧梳理_数据治理_04



二、指标业务侧梳理

2.1 报表指标平滩至指标清单

即把报表中的指标单独提取出出来,填至指标清单中,由于调研的时候理论上已经把指标作了一定提取,这里就不再详述了


2.2 指标排重

该步骤,将在指标状态中,新加一个状态,我平时会用三种:在用,停用,重复。重复的判断就是,取值逻辑一致。


2.3 主题域划分

域这个词,可以和“分类”这个词划等号,粗暴一点的可以叫“归堆”。

不少同学可能会问,这些分类和归堆,究竟价值几何?

其实划分主题域,主要还是管理的需要,若是做得相对好一点,可以从技术、业务、管理三个维度划分主题域,到时候找指标的时候,会找得顺畅一点(也就是所谓的数据资产地图)。这一点Teradata在金融行业的模型就做得很透彻,可以说无论你从什么观察角度和关注点找,都能找到相关的主题模型,而且分得很细致(在Teradata的理念里,同一个实体是可以出现在多个主题模型中的)【重点说一下,我不是Teradata的人,也不卖他们产品广告,只是觉得真有参考价值】


2.4 指标取值逻辑技术化

一般来说,业务提的指标取值逻辑,技术人员比较难理解,这就要求我们的分析师转化为技术能看得懂的语言了,如:

原取值逻辑描述:

新增备案营销员项目数量:新增关联到项目下的营销员

可翻译为:

统计更新时间是当天并且营销员字段不为空的项目数量


2.5 增加指标编码

就是加一个全企业唯一编码,可以按实际情况编,一般是采用“分公司-部门-序列”的形式


2.6 与应用场景匹对

每一个指标都有一定的适用场景的,场景可能是一个或多个,需记录下来


2.7 增加版本号

指标一般会迭代的,因此要增加版本号


2.8 增加录入员/维护员

一般是IT的录入/维护员


2.9 最终展示形式

黄色是指标整理后新增的:

构建数仓指标体系3:指标业务侧梳理_数据资产_05

当然,大家还可以继续在标签管理上加上自己的一些字段进行维护。。。


2.10 总结

其实标签管理不是一个特别难的事,难在更新迭代的时候的维护需要时间和精力,因此如果有系统支撑会稍好一点,否则可能两三个迭代后,就没有维护了。