各种类型的元数据有什么用?跟数据中台啥关系?

元数据在指标管理、模型设计、数据质量和成本治理四个领域都发挥作用,这些领域构成数据中台OneData 数据体系。今天逐一了解元数据在上述领域的应用

1 指标管理

指标,一种特定类型的元数据,运营会围绕它工作,业务和数据的交汇点。指标数据能否用,会影响他们的日常工作。

电商业务中,新用户销售额是考核市场活动拉新效果的重要指标。马漂亮是市场部门的数据分析师,某天,她要给CEO提供一份数据报告,报告有一项指标“新用户销售额”。孙美丽是会员中心的运营,她每天都会给CEO提供每日的新用户销售额数据。

结果有天,CEO看这两份报告后发现,同日的新用户销售额数值相差很大,他判断数据出问题,责令两部门负责人排查。排查后发现,市场部门对新用户口径的定义和会员中心不一样:

  • 市场部门认定新用户是首次下单并完成支付的用户
  • 会员中心认定新用户是当日新注册用户

即市场部门认定的新用户中,可能有之前注册但没下过单的客户;而会员中心只包括当日注册并完成下单支付的用户。日常工作中还有很多类似问题。

上述问题根源是指标口径不一致,而你要构建全局一致的指标口径,输出企业的指标字典。

2 指标混乱现状

18年末开始,网易电商数据中台团队对电商业务的核心指标全面盘点梳理,解决指标口径不一致问题。原800个指标,最终梳理完成427个指标,总结出常见的指标问题:

数据中台实战(05)-如何统一管理纷繁杂乱的数据指标?_数据

同名不同径,同径不同名。 口径不清晰,口径有错误。 命名难理解,计算不易懂。 来源不清晰,同部不同径。

2.1 相同指标名称,口径定义不同

不同部门对相同的“新用户销售额”,因为口径定义差别,导致指标数值的不一致。这是指标管理最易出现的case。

口径不一致,数据就无法横向对比,失去数据辅助商业决策的意义。

数据中台实战(05)-如何统一管理纷繁杂乱的数据指标?_数据产品_02

2.2 相同口径,指标名称不一样

如发放优惠券,现有两个数据产品:

  • 经营大脑,主要展示企业日常经营活动健康度的核心指标,有个指标“优惠券抵扣金额”
  • 市场360,主要展示市场活动效果衡量的指标,也有个指标“优惠券消耗金额”

二者口径定义无差,但指标名称不同,让指标使用人疑惑,是否同一指标,计算逻辑是否一致?数据是否可横向对比?

2.3 不同限定词,描述相同事实过程的两个指标,相同事实部分口径不一致

黑卡会员购买用户和非会员购买用户数,描述的都是用户下单购买商品的相同业务过程,记录的都是购买商品的事实,只是一个限定词黑卡会员,一个限定词非会员。

按一致性原则,虽是俩指标,但对购买用户数这个相同的事实部分,业务口径、计算逻辑应一致,但现实可能:

  • “黑卡会员购买用户数”的口径定义是计算周期内去重的(重复购买的用户只算一个),下单并支付成功的用户数量
  • “非会员的购买用户数”的口径定义是计算周期内去重的,下单并且支付成功,排除关单(“关单”是指在用户在下单购买成功后,取消订单)的用户数量

对购买用户数,这两个指标的口径不一致:

  • 一个包含关单
  • 一个不包含关单

2.4 指标口径描述不清晰

有些报表上的指标口径描述较笼统。如“关单金额”,口径描述“关闭订单的金额”。不同人理解可能不一,有人认为是支付成功后关闭订单;也可能支付完成前,取消订单。描述不清,让人对数据理解有歧义。

2.5 指标口径描述错误

在流量分析数据产品中,有“7日uv”指标,口径定义是7日内日均uv。根据口径描述计算逻辑,应是最近7日,每日uv累加,除以7的平均值。这定义在业务场景有问题,正确的7日UV的口径定义应是7日内有登录过,去重的用户数。

2.6 指标命名难于理解

梳理促销业务过程的指标时,有个数据产品的指标名称“ROI”,口径定义优惠券销售额/优惠券成本。ROI在电商业务场景中,除了优惠劵,商品降价促销都可计算ROI,所以较好命名应是(商品|类目|通用)优惠劵ROI。所以,指标命名不规范,从指标名称很难看出指标描述的业务过程。

2.7 指标数据来源和计算逻辑不清晰

如指标数据来源不清,一旦这指标数据异常,难做溯源。有些指标的计算逻辑较复杂,仅凭借业务口径一段描述,使用指标的人还是无法理解这指标计算逻辑,需一些伪码或SQL描述。

3 如何规范化定义指标

如何高效、规范化管理指标。

数据中台实战(05)-如何统一管理纷繁杂乱的数据指标?_数据_03

3.1 面向主题域管理

为提高指标管理效率,需按业务线、主题域和业务过程三级目录管理指标(业务线 - 顶级目录)。

电商、游戏、音乐、传媒、教育是不同业务线。业务线之下是主题域,指标中的主题域与数仓中的概念是一致的,划分标准最好是跟数仓保持一致(数仓主题域的划分,我会在06讲详细讲述)。在主题域下面还有细分的业务过程,比如对于交易域,细分的业务过程有加入购物车、下单、支付。

3.2 拆分原子指标和派生指标

为解决“黑卡购买用户数”和“非会员购买用户数”,这俩指标对购买用户数口径定义不一致问题,需引入管理方式:

  • 派生指标
    统计周期、统计粒度、业务限定、原子指标,组成派生指标
  • 原子指标
    可定义为不能按上述规则进一步拆分的指标

数据中台实战(05)-如何统一管理纷繁杂乱的数据指标?_元数据_04

即可理解为:

  • 购买用户数是原子指标,原子指标的口径定义“计算周期内去重的,下单&&支付成功的用户数量,包括关单”
  • 黑卡会员、非会员都可认定为业务限定词
  • 统计粒度是商品粒度
  • 统计周期30天

这样:

  • 30天内商品维度的黑卡会员购买用户数
  • 30天内商品维度的非会员购买用户数

就作为两个派生指标存在,但他们继承自同一原子指标。

3.3 指标命名规范

遵循基本原则:

  • 易懂,看到指标名称就可基本判断指标归属哪个业务过程
  • 统一,确保派生指标和它继承的原子指标命名一致

指标应有指标名称、指标标识(或英文名)。

  • 原子指标,指标名称适合用“动作+度量”命名(如注册用户数、购买用户数),标识的命名用英文简写或者汉语拼音缩写较好
  • 派生指标,应严格遵循“时间周期+统计粒度+修饰词+原子指标”命名,标识命名要用“修饰词原子指标时间周期”的方式

数据中台实战(05)-如何统一管理纷繁杂乱的数据指标?_数据产品_05

3.4 关联的应用和可分析维度

使用指标人(运营、分析师)了解指标的口径定义后,下步就是看指标数值。所以,全局指标字典中,还应有指标被哪些应用使用,方便去对应数据产品或报表查看指标数值。

还应有指标的可分析维度,方便分析师从不同维度分析指标变化趋势。

3.5 分等级管理

这么多指标,数据中台管的过来?管不过来,不仅是数据中台会产出一些公共核心指标,业务部门也会创建一些专属业务部门内指标。这么多指标咋管?可按照如下原则等级管理:

  • 一级指标:数据中台直接产出,核心指标(提供给公司高层看)、原子指标及跨部门的派生指标
    要确保指标按时、保证质量产出,指标创建由中台负责
  • 二级指标:基于中台提供的原子指标,业务部门创建的派生指标
    允许业务方自己创建,中台不承诺指标产出时间和质量。

结合自己所在业务,找一些指标,按上面方法实践!

4 指标系统

很多公司爱Excel管理指标,觉得上手容易,编辑方便,但不适合指标管理:

  • 难共享
  • 缺少权限控制
  • 无法动态更新
  • 指标无法跟数仓的模型动态关联

需要一个面向指标的管理系统:

数据中台实战(05)-如何统一管理纷繁杂乱的数据指标?_数据产品_06

指标系统是基于元数据中心构建的一个指标管理工具,它从元数据中心自动同步数仓的主题域和业务过程,按规范化定义创建指标。

新创建的指标同时会以特定类型的标签,下沉到元数据中心对应的表和字段,这样在数据地图上就能搜索到表关联的指标。

数据中台实战(05)-如何统一管理纷繁杂乱的数据指标?_数据产品_07

支持按指标名称、标识、业务口径检索:

数据中台实战(05)-如何统一管理纷繁杂乱的数据指标?_数据_08

既然指标系统能实现指标规范化定义,解决“如何系统化、规范化定义指标”,如何基于指标系统构建全局的指标字典,因为这是指标治理的最终结果。

5 基于指标系统,构建全局的指标字典

指标治理最终结果,是形成一个全局业务口径一致的指标字典。让使用指标人可通过指标字典,快速了解指标业务含义和计算过程,不对指标口径产生歧义。

数据中台团队须有一个专门负责指标管理的人/小组(一般不超3人),最好是数据产品经理负责,若公司没这职位,也可让分析师承担(前提分析师须属中台团队)。

构建全局的指标字典分如下场景:

5.1 面对新的指标需求,如何基于指标系统完成指标开发

数据中台实战(05)-如何统一管理纷繁杂乱的数据指标?_数据_09

新建指标的流程,流程中参与的各角色。

  • 指标需求评审,需求方、数据开发、应用开发都参加。评审先要确认这是不是一个新指标,并明确原子指标/派生指标。评审就是要达成一致
  • 评审结果:
  • 不需要开发,是已存在的指标,直接可通过设计逻辑模型,发布接口,获取数据
    交付时间短
  • 需要开发
    需排期,交付时间长
  • 指标有等级之分,这流程适用于一级指标,二级指标可无需评审,当然开发也由业务方开发和发布上线

5.2 面对已存在、混乱的指标现状,如何全局梳理

很多公司已有一定大数据业务,但还不能算中台,这部分公司如何进行一次全局的指标梳理?

步骤:

  1. 成立以数据产品或分析师为核心的1~3人的工作小组,专门负责指标的全局梳理
  2. 制定指标梳理计划,明确指标梳理目标,覆盖多少个业务线,与业务方共同制定时间计划
  3. 对于每一个业务线,需要对还在使用的数据报表、数据产品进行盘点,这里顺便可以把没用的报表和数据产品应该下线
  4. 对于每一个报表和数据产品中涉及的指标,按照以下格式进行收集

数据中台实战(05)-如何统一管理纷繁杂乱的数据指标?_数据_10

  1. 对于收集的指标,明确业务口径,对于口径相同的,应该去除重复,关联的应用应该合并,此时以我的经验,可以过滤掉相当一部分;
  2. 根据指标业务口径,明确指标所属的主题域、业务过程;
  3. 区分指标类型,对于派生指标,要明确指标的统计粒度、修饰词、时间周期以及关联的原子指标;
  4. 按照指标系统对指标的规范化定义,把整理好的指标录入指标系统。

通过全局的梳理和新建指标流程的管控,你就可以构建一个全局一致的指标字典了。

6 总结

如何构建全局一致的指标字典,通过系统+规范的方法,解决数据中台指标一致性管理的难题。

  • 数据中台直接产出的核心指标必须实施强管理,由数据中台团队的专人或者小组负责,最好是数据产品经理的角色。
  • 指标的管理必须结合系统+规范的治理方法,明确每个角色的职责,通过系统化的方法实现。
  • 不同的两个指标描述的相同业务过程中的相同事实部分口径不一致,是指标梳理过程中最常见的问题,需要通过拆分原子指标和派生指标的方式解决。

数据中台实战(05)-如何统一管理纷繁杂乱的数据指标?_数据产品_11