万字详解数仓质量构建体系

推荐原创

大数据兵工厂 2022-06-02 14:39:44 博主文章分类：实时计算 ©著作权

文章标签 数据仓库数据质量数据治理大数据 文章分类 大数据 yyds干货盘点

©著作权归作者所有：来自51CTO博客作者大数据兵工厂的原创作品，请联系作者获取转载授权，否则将追究法律责任

大家好，我是老兵。

在数据仓库建设的过程当中，大家是否会有这样的疑问:

1）数仓分层模型是否需要严格遵守
2）照本宣科建设的数仓貌似不好用
3）如何评判一个数仓建设的质量好坏
4）我的数据仓库还能做怎样的升级

我们该如何解决这些问题？其实一般抛出此类话题，说明数仓建设已经发展到一定规模，这个时候需要考虑数仓质量问题。

毫无疑问，要想保持数仓的稳定、高效，数仓质量建设是势在必行的一步。否则再好的业务数据分析也会捉襟见肘，数据运维将变得十分痛苦。

本文将重点阐述，如何构建可实施落地的数仓建设质量体系之路。

万字详解数仓质量构建体系_数据仓库

1 数仓建设的核心要求

数仓建设普遍是纵向分层建设，横向主题域划分，如下图所示

万字详解数仓质量构建体系_数据治理_02

ODS层: 贴源层。旨在集团、子公司、互联网及三方外部数据输入层，基本保持源表原貌(存在敏感数据加密)。
DW层: 数仓层。可细分为dwd和dws子层。DWD层为数据明细层,DWS层为数据汇总层。
DIM层。维度层，保存一些企业常用的维度表，如: 日期维、地区维、商品维、用户维等。
DM层: 数据集市层(主题层)。面向应用主题汇总DW层数据(如: 渠道、产品、会员等主题)。
APP层: 面向具体应用的结果集，包含但不限于：集团共享库、子公司的分析私库、输出接口库等

数仓开发的同学相信对此不会感到陌生，上述数仓分层几乎已经成为行业标准。当然它在一定程度上规范了数据建设的标准，但也仅仅只是个前奏，并不能全面反映数仓建设的核心要求。

数据仓库的核心在于数据模型的可复用性且需要的计算资源是可量化的，可控的。

2 怎么判定好的模型设计

好的数据模型设计往往兼顾数据的分区存储，数据的复用性以及计算资源的分配最大化。

而在数据开发时我们经常是从数仓分层的角度出发，仅仅关注数仓分层间的开发，往往没有从这些方面考虑。

那么不合理的数仓模型设计、不规范操作可能会带来什么影响呢？

下面我将通过一个实际工作中遇到的例子来分析。

2.1 场景复现

不规范操作： 直接从DWD层，甚至是ODS层暴力跑SQL

这类操作是我在一次数仓运行缓慢问题排查中发现的。

业务层直接依赖DWD层和ODS层，导致ODS层的任务越来越多。在计算资源不变的情况下，例行化任务跑的越来越慢，甚至拖延了日常核心报表的产出时间。

再来看看具体数据，下面是部分大型例行化任务对应的资源消耗情况。

万字详解数仓质量构建体系_数据治理_03 万字详解数仓质量构建体系_数据仓库_04 从图中可以明显感受到这几个大任务已经把凌晨时间段的资源占用完了，导致平台资源一直处于十分紧张的状态。

通过日志统计发现，ODS: DWD: DWS: ADS的读取任务分别是35:44:7:14，直接读取ODS层任务占着四层任务总和的35.3%。

2.2 问题分析

通过对比资源消耗和日志统计，我们总结出了两个问题：

大部分任务都是从原始数据直接加工，DWS等聚合模型复用性很差，导致DWD、DWS、ADS层数据建设缺失严重。
查询越底层的表，就会导致查询扫描的数据量越大，查询时间越长，消耗资源越大。像是滚雪球一般，查询时间疯狂增长。

随后对ADS应用层引用最大依赖层进行分解，发现高达54.3%的表直接引用了ODS层表，说明有部分ODS层表被进行暴力跨层深加工且没有走可复用的数据模型。

2.3 问题处理

在发现问题后，我重新对数仓的层级表进行改造。主要从拆解表的层级依赖和数据量两方面出发，重构后的DWD、DWS、ADS层如下:

万字详解数仓质量构建体系_数据质量_05

自此，数仓的复用性得到了很大的提高，凌晨计算资源也得到了很大的缓解。

通过对这个实际生产应用问题的分析，我们得出最理想的数仓模型设计应该具备的基本因素。

（1）数据模型可复用
（2）整体资源消耗合理可控

这两个基本要素，也是数据质量建设解决的核心问题。

数仓质量的建设是数仓体系必备环节。否则一个业务还没有起来就已经被高昂的数据成本所压垮，最终走入望数兴叹的尴尬境地。

3 数据质量度量体系及升级优化

数据仓库想做到高效、稳定、易用，一个完善可靠的质量度量体系必不可少。

业界评估数据质量的标准不尽相同，本文从以下可信度、复用度、规范度、资源度、稳定度、完善度六个维度考核数仓建设质量以及对应的升级思路。

3.1 可信度

数据可信是数仓的立身之本。连数据的可信度都不高的数仓很显然得不到业务团队的青睐。

要做到数据可信首先要确保以下几点：

1）准确性

准确性是指数据记录的信息是否存在异常或错误。数据记录的异常或错误可能会存在数据链路的各个环节。

最为常见的数据准确性错误如：埋点上报异常，乱码，数据计算规则错误。常见的准确性指标有：缺失值占比、错误值占比、异常值占比、抽样偏差、数据噪声。

在计算这些指标的时候通常需要数据团队与其他团队一起合作，对数据进行校验。

例如数仓数据的准确性往往在数据埋点上传的时候就会受到挑战。

升级思路

建设公司级标准的埋点SDK
即便公司级已有一套标准的SDK，由不同的业务性技术人员接入时也会因理解问题或内部沟通问题导致埋点数据上报误差。
建设后台埋点上报测试平台
此时经常需要数据开发人员利用对埋点进行测试以及规范，确保源头准确性，并相应的调整取数规则。
对比第三方平台
当然，我们也可以利用第三方平台的数据对一些指标数据进行对比，如果很多公司很早之前就接入过类似友盟，有赞这样的平台。对于一些核心数据可以拿第三方平台数据进行参考。

2）数据唯一性

唯一性指的是数据库的数据不存在重复的情形。

数仓当中一般没有主键唯一约束的概念。我们通过数据同步工具将数据库中的数据导入到数仓当中很难避免数据重复。

升级思路

数据清洗侧加入数据唯一性规则：
例如同一笔订单因为宕机等原因被重复消费，这种数据不符合数据唯一性。为了避免这类情况会很多做法，比如：kafka幂等、flink的checkpoint、下游数据库主键唯一去重等。
建设数据质量监控体系：
对数据内容的的质量进行一系列检测，并计算出若干量化指标，最后产出数据质量报告供该数据的订阅者查阅。如下图：

万字详解数仓质量构建体系_数据仓库_06