数据质量管理是组织变革管理中一项关键的支撑流程,包括整合数据源、创建一致的数据副本、交互提供数据或整合数据。数据清洗不能解决数据缺陷的根本原因。

数据质量管理是一个持续的过程,为满足业务需求的数据质量标准制定规格参数,并且保障量能够满足这些标准。数据质量管理包括数据质量分析、识别数据异常和定义业务需求及相关业务规则,还包括在必要的时候对已定义的数据质量规则进行合规性检查和监控的流程,以及数据解析、标准化、清洗和整合。最后,数据质量管理还包括问题跟踪,从而对已定义的数据质量服务水平协议的合规性进行监控。

数据资产管理白皮书指出数据质量是保证数据应用效果的基础。数据质量是描述数据价值含量的指标,就像铁矿石的质量,矿石的质量高,则炼出来的钢材就会多;反之,矿石的质量低,不但练出来的钢材少了,同时也增加了提炼的成本。

 

关于DAMA数据质量管理的解读和一些看法_数据

仔细品味,详细读之,在DAMA晦涩的语言下,其实包含了不少真知灼见,提出了供给者、参与者、消费者的概念,也提到了数据认责,提到了流批质量处理,并且强调将利益相关方和绩效管理纳入到数据质量管理范畴,而这一点恰恰是数据质量管理避讳的。

1、开发和提升数据质量意识

尤其强调了将数据质量问题和实质影响联系起来,包括数据质量问题不能仅仅依靠技术手段解决的理念,然后提供一些基础培训、建立数据质量管理委员会,提升参与意识,强调个人绩效,数据需求分析要纳入到整个系统开发周期等等;这一点是数据质量管理的基础和成败的关键,但也往往是企业的痛点,首先高层知道数据质量的重要性,但业务系统的建设和稳定性才是推动企业发展的重点,对数据质量的重视往往停留在口头上;信息化部门的执行力由于缺乏上层的支持,对其他业务部门的协调力度不够,毕竟数据质量是要做大量的沟通协调工作,甚至需要对业务系统进行完善和修订,而往往经费仅限定于数据质量平台,未考虑其他费用;数据质量平台做了大量的基础工作、规则收集、脚本验证、生成报告,有了闭环流程,由于少了业务部门、业务厂家的参与,却起不到应有的作用,于是年复一年日复一日,各方都对数据质量管理产生了怀疑。如何破局呢?一是给高层洗脑,二是要对企业信息化水平现状有足够的认知,三是提供合理的方案,四是全方位联动,但代价太高,又会导致诟病。

2、定义数据质量需求 

数据质量必须在适用性背景下被理解,要遵从外部的管理法规、行业标准和内部的市场、销售、物流等业务规则;数据质量维度包括准确性、完整性、一致性、合理性、参照完整性、及时性、唯一性、有效性、精确度、隐私、时效性;在DAMA里数据质量维度定义的非常全面,强调了时效性和隐私,而且把准确性和一致性做了区分,又对一致性做了记录级一致性、跨记录一致性、时间一致性等细分。这是数据质量管理中应该加强的。

3、剖析、分析和评估数据质量

自下而上是基于自动流程的处理结果,强调潜在问题,包括出现率分析、重复性分析、跨数据集的依赖关系、孤儿数据记录和冗余分析。

自上而下,用户参与记录业务流程和关键数据的依赖关系,需要理解业务流程如何使用数据,哪些数据元素对于业务应用的成功至关重要。记录填充率,频繁值、异常值、字段关系、跨表关系、属性填充值。

一般在评估和分析数据质量采用两者融合的方式进行的,自下而上可以基于元数据、血缘关系等进行量化分析的方式获得,以框定数据质量管理的实施范围;自上而下版来自业务部门的需求,毕竟最熟悉业务的还是业务人员,业务人员对数据质量的需求是第一手需求。

4、定义数据质量指标

可度量行、业务相关性、可接受程度、可控性、可跟踪性、数据认责制度/数据管理制度,前面提到的主要是数据质量指标要求,数据认责制度/数据管理制度则是要求将数据管理落实到相关岗位角色,以便进行纠错。据统计数据质量问题76%来自数据录入错误53%来自源系统的变化48%来自数据迁移或项目改建46%来自用户不同的期望26%来自系统错误;绝大多数管理者认为IT人员应该对数据质量负责,实际上最该负责是用户,数据认责在后来的数据治理框架中也不断被强化和重视,数据认责的主要内涵是确定数据治理工作的相关各方的责任和关系,包括数据治理过程中的决策、执行、解释、汇报、协调等活动的参与方和负责方,以及各方承担的角色和职责等。因此数据质量管理中也要纳入数据认责管理。

5、定义数据质量业务规则

定义数据质量业务规则,包括了数据缺陷的识别和分类,自动通知或预警,并建立缺陷数据纠正机制。并对数据缺陷的分类做了一些详细的说明,包括值域成员业务规则,定义一致性业务规则,值域一致性规则,格式一致性规则,映射一致性规则,精确度验证、唯一性验证、及时性验证等等。

6、测试和验证数据质量需求

这里面提到的主要是通过数据剖析工具将上述规则进行验证,并建立数据质量基线。

7、确定并评估数据质量服务水平

这里面提到了数据质量的服务水平协议即SLA,很多时候数据质量没有量化标准或者期望过高或者要求全域或者要求全部,因此需要提前设定数据质量标准,这个标准的来源于用户需求或抽样的数据质量基线。同时数据质量服务水平是动态的,要根据质量问题的严重性或解决问题的时间要求越级上报。

8、持续测量和监控数据质量

传统的数据质量管理一般是离线处理,或者在数据仓库中进行数据质量管理的,DAMA中显著的提到了流式和批量两种数据质量检查方式,并基于三种监控粒度:数据值、记录、数据集;不得不说传统的数据质量监控或管理存在严重的滞后性问题,而大数据技术的发展也驱动了数据质量前置,可以做到事前事中的控制;DAMA这一点还是比较超前和有预见性的。

9、管理数据质量问题

管理数据质量问题,第一是数据质量问题和活动标准化,第二是流程管理,第三是问题上报,第四是管理数据质量解决流程,然后形成信息共享知识库,有了相关知识库可以形成数据质量问题解决流程和方案,同时借助于现在的自然语言处理或知识图谱,形成数据质量地图。

10、清洗并纠正数据质量缺陷

这里面提到了自动校正、人工指导校正和人工校正三种数据校正方式,这样的提法没什么问题,但实际操作起来却不乐观,在数据仓库中或者两两业务系统比较可以采用数据清洗的方式进行数据质量自动或人工指导校正,但单一的业务系统或者涉及主数据的系统,数据的准确性有待于账实核查,而不是靠清洗的手段解决缺陷问题。

11、设计并实施数据质量管理操作程序

关于数据质量管理操作程序,这里面提到的4项活动,主要包括检查和监控,诊断和评估补救办法,解决问题和报告,个人认为目前的数据质量管理在诊断和评估补救办法和解决问题做的还远远不够,基本上都是就事论事,数据质量管理平台和项目较多,而数据运营较少,导致数据质量问题缺乏全面和根本原因分析定位。

12、监控数据质量管理操作程序和绩效

在这里着重提到了责任制是监控数据质量协议的关键,责任制不外乎三件事,一是数据质量要有闭环流程,从发现到上报到定位分析到处理到跟踪到反馈;二是数据质量的绩效落实人,没有绩效就没有动力;三是数据认责要明确数据的主人,使用人,管理人员。