我们从以下几个维度对数据质量问题进行描述。

1.准确性

    数据与客观实际要相符,即使数据项为空,也尽量不提供错误或者失真的数据。

2.合理性

    数据要符合数据模型的定义和描述,且与常理不相违背。

3.一致性

    如果同一个数据存在多处存储,那么数据及数据内容需要保持一致。

4.重复性

    在同一个存储区域内,同样的一条记录应该避免重复

5.及时性

    数据应该能够反映客观实体的当前状况。

6.完备性

    数据要完备,要没有记录数量上的缺失和必要关键数据项的内容缺失。

    我们将数据以实体数据(以下称为主数据)数据、业务指标和实体标签数据(统计结果数据)这四个层次在六个维度上形成一个二维表格,并将所见到的数据质量问题的情况逐一填写到对应的表格中(表1~表6)。

表1

数据展次

准确性问题

主数据

(1)定义不准确,各自定义。比如,对客户的定义,有的理解为包含潜在客户,有的仅仅理解为会员。
(2)在数据模型中对属性的理解不一致。比如,对门店面积的定义,有的填写门店的实际面积,有的填写经营面积。
(3)数内容不准确,被随意填写。比如,在客户信息中,对客户姓名、年龄、住址等内容随意填写

交易数据

数据不准确,存在脏数据,记录与事实不着

行为数据

数架噪声大

业务指标和实体标签数据

定义不准璃,计算口径、取数口径各自为政。比如,对同一个指标、不同的部门有不同的定义

 

表2

数据展次

合理性问题

主数据

(1)数据管理不合规,存在多头管理或无人管理。比如,销售部门和客户中心都可以管理客户信息,重复维护。
(2)数据使用不合规,存在泄漏风险。比如,所有客户名单数据都星露在FTP 服务器中。
(3)数据共享不合规,无技术规范

交易数据

——

行为数据

——

业务指标和实体标签数据

(1)无数据定义规范。
(2)数据在使用过程中存在泄漏风险

 

表 3

数据展次

一致性问题

主数据

(1)数据存在多个版本,同一个主数据的内容不一致。比如,员工账户信息在每个应用系统中都各自定义,账户不统一。
(2)多头定义,数据及数据属性定义不一致

交易数据

(1)数据内容前后不一致,有冲突。比如,在客户数据中存在性别信息,但是填写的内容和身份证信息中的性别信息冲突。
(2)数据内容与数据模型定义不一致。比如,用于记录产品的表格,记录了“门店装修返款”

行为数据

——

业务指标和实体标签数据

数据定义不一致

 

表4

数据展次

重复性问题

主数据

在同一个集合内,数据被重复记录

交易数据

在同一次交易中,数据被重复记录

行为数据

存在技术问题,数据被大量重复记录

业务指标和实体标签数据

——

 

表5

数据展次

及时性问题

主数据

(1)数据被多头维护。存在多个历史版本,内容不能反映当前情况。比如对于职工数据中的所在部门属性,由于员工调动和维护不及时存在多种内容。
(2)数据维护不及时,当前内容与真实情况不符。比如,客户信息中的“税号”信息。

交易数据

事后补录数据,数据维护不及时。比如,在房地产行业中,房屋销售数据经常在事后被一次性补录,或者根据业务需要自行决定录入时间

行为数据

——

业务指标和实体标签数据

(1)数据化原因导致数据无法获得。
(2)数据结果获取缓慢,以周或者月为获取时间单位不满足业务需求

 

表 6

数据展次

完备性问题

主数据

无法回答企业中存在多少个“客户”“供应商”“设备”“项目”等问题,缺少数据全局视图

交易数据

——

行为数据

由于技术问题导致行为数据大量缺失,如埋点服务器宕机导致数据不全

业务指标和实体标签数据

——

    对于数据质量的提升,以往的做法是在数据仓库中进行各种“清洗”操作,但是这种方法治标不治本,而且在数据中台上的各种美化都属于后期的人为干预,这样的干预有时候本身就是一种错误。所以,我们寄希望于通过数据质量管理,进行治本的操作。