一.示例

指标是一种特定类型的元数据,公司的运营会围绕它进行工作,可以说,它是业务和数据的交汇点。

在电商业务中,新用户销售额是考核市场活动拉新效果的重要指标。市场部门的数据分析师,某一天,她要给 CEO 提供一份数据报告,报告中有一项指标是“新用户销售额”。会员中心的运营,她每天都会给 CEO 提供每日的新用户销售额数据。

结果有一天,CEO 看了这两份报告后发现,同一日的新用户销售额数值相差很大,他判断数据出了问题,责令两个部门的负责人进行排查。排查后发现,市场部门对新用户口径的定义和会员中心不一样:

  • 市场部门认定新用户是首次下单并完成支付的用户
  • 会员中心认定新用户是当日新注册用户

也就是说,市场部门认定的新用户中,可能有之前注册但是没有下过单的客户;而会员中心只包括当日注册并完成下单支付的用户。其实,在日常工作中还有很多类似的问题。

造成上述问题的根源是因为指标口径不一致,而你要构建全局一致的指标口径,输出企业的指标字典。

二.指标混乱状态

核心指标进行了全面的盘点和梳理,为的就是解决指标口径不一致的问题。在梳理过程中,总结了 7 个常见的指标问题,希望你能对照着看一下,自己是否也存在类似的情况。

指标常见问题

  • 相同指标名称,口径不一致。
  • 相同口径,指标名称不一样。
  • 不同限定词,描述相同事实过程的两个指标,相同事实部分口径不一致。
  • 指标口径描述不清楚。
  • 指标命名难于理解。
  • 指标数据来源和计算逻辑不清晰。

2.1 相同指标名称,口径定义不同

不同的部门对相同的“新用户销售额”,因为口径定义的差别,导致指标数值的不一致。而这种情况是指标管理中最容易出现的情况。口径不一致,数据也就没办法横向对比,失去了数据辅助商业决策的意义。
数据中台-指标系统_big data

2.2 相同口径,指标名称不一样

这种情况与上面相反,比如发放优惠券是电商常见的促销方案手段,现在你有两个数据产品:

  • 一个是经营大脑,主要展示的是企业日常经营活动健康度的核心指标,它有一个指标叫“优惠券抵扣金额”;
  • 一个是市场 360,主要是展示市场活动效果衡量的指标,它也有一个指标叫“优惠券消耗金额”。

2.3 不同限定词,描述相同事实过程的两个指标,相同事实部分口径不一致。

黑卡会员购买用户和非会员购买用户数,它们描述的都是用户下单购买商品的相同业务过程,记录的都是购买商品的事实,只是一个限定词是黑卡会员,一个限定词是非会员。

按照一致性原则,虽然是两个指标,但是对于购买用户数这个相同的事实部分,业务口径、计算逻辑应该是一致的,但是现实情况却可能不是这样:

  • “黑卡会员购买用户数”的口径定义是计算周期内去重的(重复购买的用户只算一个),下单并且支付成功的用户数量;
  • “ 非会员的购买用户数”的口径定义是计算周期内去重的,下单并且支付成功,排除关单(“关单”是指在用户在下单购买成功后,取消订单)的用户数量。
    你能看到,对于购买用户数,这两个指标的口径是不一致的,一个包含关单,一个不包含关单。

2.4 指标口径描述不清晰。

在梳理过程中,我们还发现,有些报表上的指标口径描述的比较笼统。比如“关单金额”,口径描述“关闭订单的金额”。不同人的理解可能不一样,有的人会认为是支付成功后关闭订单;也有可能是支付完成前,取消订单。描述不清晰,就会让人们对数据的理解产生歧义。

2.5 指标口径描述错误。

在流量分析数据产品中,有“7 日 uv”这个指标,口径的定义是 7 日内日均 uv。根据口径描述的计算逻辑,应该是最近 7 日,每日 uv 相加除以 7 取平均值。显然,这个定义在业务场景中是有问题的,正确的 7 日 uv 的口径定义应该是 7 日内有登录过,去重的用户数。

2.6 指标命名难于理解。

2.7 指标数据来源和计算逻辑不清晰。

如果指标数据来源不清楚,一旦这个指标数据异常,就很难去做溯源。另外,有些指标的计算逻辑比较复杂,仅仅凭借业务口径一段描述,使用指标的人还是无法理解这个指标的计算逻辑,这个时候就需要有一些伪码或者 SQL 描述。

三.规范化定义指标

面向主题管理
数据中台-指标系统_人工智能_02
拆分原子指标和派生指标

为了解决前面提到的,“黑卡购买用户数”和“非会员购买用户数”,这两个指标对购买用户数口径定义不一致的问题,我们需要引入原子指标和派生指标的管理方式。
统计周期(30天)+ 统计粒度(商品)+ 业务限定(黑卡/非会员)+ 原子指标(购买用户数) = 派生指标

指标命名规范

指标命名规范要遵循两个基本的原则:

  • 易懂,就是看到指标的名称,就可以基本判断这个指标归属于哪个业务过程;
  • 统一,就是要确保派生指标和它继承的原子指标命名是一致的。

对于原子指标,指标名称适合用“动作 + 度量”的命名方式(比如注册用户数、购买用户数),标识的命名用英文简写或者汉语拼音缩写比较好。
对于派生指标,指标名称应该严格遵循“时间周期 + 统计粒度 + 修饰词 + 原子指标”的命名方式,标识命名要用“修饰词 _ 原子指标 _ 时间周期”的方式。

指标名称 指标标识 指标类型 主题域
购买用户数 buyer_num 原子指标 交易域
30天内黑卡会员购买用户数 black_vip_buyer_num_30days 原子指标 交易域

关联维度

指标关联可分析维度,分析师从不同维度分析

分级管理

  • 一级指标:数据中台直接产出,核心指标(提供给公司高层看的)、原子指标以及跨部门的派生指标。
  • 二级指标:基于中台提供的原子指标,业务部门创建的派生指标。

不同等级的指标意味着管理方式不同:

  • 一级指标,要确保指标按时、保证质量产出,指标创建由中台负责;
  • 二级指标,允许业务方自己创建,中台不承诺指标的产出时间和质量。

四.指标系统

数据中台-指标系统_机器学习_03
指标系统是基于元数据中心构建的一个指标管理工具,它从元数据中心自动同步数仓的主题域和业务过程,按照规范化定义创建指标。
新创建的指标同时会以特定类型的标签,下沉到元数据中心对应的表和字段上,这样在数据地图上就可以搜索到表关联的指标。
数据中台-指标系统_数据_04
构建全局的指标字典,这是指标治理的最终结果。

五.基于指标系统构建全局的指标字典

构建全局的指标字典分为两个场景:

  • 一个是面对一个新的指标需求,如何基于指标系统完成指标开发流程;
  • 另外一个是面对已经存在的,混乱的指标现状,如何进行全局梳理。

第一场景

数据中台-指标系统_数据产品_05

第二场景

全局梳理

  • 成立以数据产品或者分析师为核心的 1~3 人的工作小组,专门负责指标的全局梳理;
  • 制定指标梳理计划,明确指标梳理目标,覆盖多少个业务线,与业务方共同制定时间计划;
  • 对于每一个业务线,需要对还在使用的数据报表、数据产品进行盘点,这里顺便可以把没用的报表和数据产品应该下线;
  • 对于每一个报表和数据产品中涉及的指标,按照以下格式进行收集(一览表);
  • 对于收集的指标,明确业务口径,对于口径相同的,应该去除重复,关联的应用应该合并,此时以我的经验,可以过滤掉相当一部分;根据指标业务口径,明确指标所属的主题域、业务过程;
  • 区分指标类型,对于派生指标,要明确指标的统计粒度、修饰词、时间周期以及关联的原子指标;
  • 按照指标系统对指标的规范化定义,把整理好的指标录入指标系统。

小结

  • 数据中台直接产出的核心指标必须实施强管理,由数据中台团队的专人或者小组负责,最好是数据产品经理的角色。
  • 指标的管理必须结合系统 + 规范的治理方法,明确每个角色的职责,通过系统化的方法实现。
  • 不同的两个指标描述的相同业务过程中的相同事实部分口径不一致,是指标梳理过程中最常见的问题,需要通过拆分原子指标和派生指标的方式解决。