一.数据质量概述

1.业务定义:为确保满足数据消费者的需求,应用数据管理技术进行规划,实施和控制等管理活动。

1.导致低质量数据产生的因素包括:组织缺乏对低质量数据影响的理解、缺乏规划、孤岛式系统设计、不一致的开发过程、不完整的文档、缺乏标准或缺乏治理等。
2.所有数据管理的原则都应有助于提高数据质量,支持组织使用高质量数据应是所有数据管理原则的目标

2.业务驱动因素

1)提高组织数据价值和数据利用的机会。
2)降低低质量数据导致的风险和成本。
3)提高组织效率和生产力。
4)保护和提高组织的声誉。

3.管理目标

1)根据数据消费者的需求,开发一套满足数据质量要求的管理方法
2)定义数据质量控制的标准和规范,并作为整个数据生命周期的一部分
3)定义和实施测量、监控和报告数据质量水平的过程
4)根据数据消费者要求,通过改变流程和系统,以及参与可显著改善数据质量的活动,识别和倡导提高数据质量的机会

4.遵循原则

1)重要性。
2)全生命周期管理。
3)预防。
4)根因修正。
5)治理。
6)标准驱动。
7)客观测量和透明度。
8)嵌入业务流程。
9)系统强制执行。
10)与服务水平关联。

二.数据质量相关概念

1.数据质量

1.如果数据满足数据消费者应用需求的目的就是高质量的;反之,如果不满足消费者应用需求的目的,就是低质量的。
2.数据质量水平高低取决于使用数据的场景和数据消费者的需求。
3.数据质量管理的挑战
1)与质量相关的期望并不总是已知的。
2)随着业务需求和外力的发展,需求会随着时间的推移而变化

2.关键数据

数据质量管理的一个原则是将改进的重点集中在对组织及其客户最重要的数据上,这样做可以明确项目范围,并使其能够对业务需求产生直接的、可测量的影响。
可根据以下要求评估关键数据:
  • 1)监管报告。
  • 2)财务报告。
  • 3)商业政策。
  • 4)持续经营。
  • 5)商业战略,尤其是差异化竞争战略。

3.数据质量维度

数据质量维度是数据的某个可测量的特性

1.Strong-Wang框架(侧重于数据消费者对数据的看法,描述了数据质量的4个大类及15个指标)
2.Thomas Redman基于数据结构的数据质量维度,在三大类别中(数据模型、数据值、数据表达),共描述20多个维度
3.Larry English:固有特征和实用特征
4.DAMA UK白皮书,描述了数据质量的6个核心维度
1)完备性。存储数据量与潜在数据量的百分比。
2)唯一性。在满足对象识别的基础上不应多次记录实体实例(事物)。
3)及时性。数据从要求的时间点起代表现实的程度。
4)有效性。如数据符合其定义的语法(格式、类型、范围),则数据有效。
5)准确性。数据正确表示实体的“真实”程度。
6)一致性。比较事物多种表述与定义的差异。
5.常见的数据质量评估维度
1、准确性。
  • 数据正确表示实体的“真实”程度
2、完备性。
  • 是否存在所有必要的数据
3、一致性。
  • 两个数据集间比较是否一致
4、完整性。
  • 引用完整性或数据集内部一致性,不至于缺失或不完整
5、合理性。
  • 指数据模式符合预期的程度
6、及时性。
  • 数据时效性是衡量数据价值是否最新版本信息的指标
7、唯一性\数据去重。
  • 不会重复出现
8、有效性
  • 数据值与定义的值域一致

4.数据质量和元数据

1.元数据对于管理数据质量至关重要。数据的质量取决于它如何满足数据消费者的需求。

元数据定义数据所代表的内容。

2.拥有一个强大的数据定义流程,有助于组织正式确定和记录用于衡量数据质量的标准和要求。数据质量是为了满足预期,而元数据是阐明期望的主要手段

5.数据质量 ISO 标准

ISO8000

6.数据质量改进生命周期:常用方法是戴明环,戴明环是一个被称为“计划-执行-检查-处理”的问题解决模型

1.戴明环
1.计划阶段P(Plan)
2.执行阶段D(DO)
3.检查阶段C(Check)
4.处理阶段A(Act)
2.DAMA 理念
1.第一次就获取正确数据,远比获取错误数据在进行修复的成本要低。
2.从一开始就将质量纳入到数据管理过程中的成本,远低于对其进行改造的成本。
3.在整个数据生命周期中维护高质量数据,比在现有流程中尝试提高质量风险更小,且对组织的影响也要小得多。
4.在流程或系统建立时就建立数据质量标准是成熟的数据管理组织的标志之一
5.持续改进是数据质量管理最有效的方法
6.数据质量问题上,关键利益相关方的参与至关重要

7.数据质量业务规则类型

1.定义一致性。确保整个组织对数据定义的理解相同
2.数值存在和记录完备性。定义数值缺失的情况是否可接受的规则。
3.格式符合性。按指定模式分配给数据元素的值,如设置电话号码格式的标准。
4.值域匹配性。指定数据元素的赋值须包含在某数据值域的枚举值中。
5.范围一致性。数据元素赋值必须在定义的数宇、词典或时间范围内。
6.映射一致性。表示分配给数据元素的值,必须采用一致的映射规则。
7.一致性规则。属性的实际值通过两个(或多个)属性之间关系的条件判定。
8.准确性验证。将数据值与记录系统或其他验证来源值进行比较,以验证值是否匹配。
9.唯一性验证。实体必须具有唯一性,每个真实世界对象有且仅有一个记录
10.及时性验证。表明与数据可访问性和可用性预期相关特征的规则

8.数据质量问题常见原因

(1)缺乏领导力导致的问题
1.许多数据治理和信息资产项目仅由合规性驱动,而不是由作为数据资产衍生的潜在价值驱动。领导层缺乏认可意味著组织内部缺乏将数据作为资产并进行质量管理的承诺
2.有效管理数据质量的障碍包括:
  • 1)领导和员工缺乏意识。
  • 2)缺乏业务管理。
  • 3)缺乏领导力和管理能力。
  • 4)难以证明改进的合理性。
  • 5)测量价值的工具不合适或不起作用
3.这些障碍会对客户体验、生产力、士气、组织效率、收入和竞争优势产生负面影响,既增加了组织的运营成本,也引入了风险
(2)数据输入过程引起的问题
1.数据输入接口问题
2.列表条目放置
3.字段重载
4.培训问题
5.业务流程的变更
6.业务流程执行混乱
(3)数据处理功能引起的问题
1.有关数据源的错误假设
2.过时的业务规则
3.变更的数据结构
(4)系统设计引起的问题
1.未能执行参照完整性
2.未执行唯一性约束
3.编码不准确和分歧
4.数据模型不准确
5.字段重载
6.时间数据不匹配
7.主数据管理薄弱
8.数据复制
(5)解决问题引起的问题
1.紧急情况下,仓促编写执行手动命令或脚本易导致更多错误
2.强烈不建议使用这些手动修改解决问题的捷径,所有的改变都应该通过一个受控的变更管理过程实现

9.数据剖析Data Profiling

1.空值数
2.最大/最小值
3.最大/最小长度
4.单个列值的频率分布
5.数据类型和格式

10.数据质量和数据处理

(1)数据清理
数据清理或数据清洗,可以通过数据转换使其符合数据标淮和域规则。清理包括检测和纠正数据错误,使质量达到可接受的水平。通过清理工具修正数据这个过程有成本,且有风

险,一般仅针对存量数据操作

(2)数据增强
数据增强或丰富是给数据集添加属性以提高其质量和可用性的过程。通过集成组织内部的数据集,可以获得一些增强,也可以购买外部数据来增强组织数据
(3)数据解析和格式化
数据解析是使用预先确定的规则来解释其内容或值的分析过程。数据质量工具解析符合这些模式的数据值,然后将其转换为标准化形式,从而简化评估、相似性分析和补救过程
(4)数据转换与标准化
在正常处理过程中,可以通过触发规则将数据转换为目标体系可接受的格式标准化是分析人员或工貝供应商经过反复分析语境,语言学,以及公认最常见的惯用语等,获取规则进行的一种特殊的格式转换。

数据剖析是一种检查数据和评估质量的数据分析形式

数据质量改进工作重点是防止错误,但也可通过某种形式的数据处理来提升数据质量

三.活动

1 .定义高质量数据

1.如何评估组织对数据质量改进的准备情况
1.高质量数据是什么意思?
2.低质量数据对业务运营和战略的影响是什么?
3.更高质量的数据如何赋能业务战略?
4.数据质量改进的需要哪些优先事项的推动?
5.对低质量数据的容忍度是多少?
6.为支持数据质量改进而实施的治理是什么?
7.配套实施的治理结构是什么?
2.如何了解组织中数据质量的当前状态
1.了解业务战略和目标。
2.与利益相关方面谈以识别痛点、风险和业务驱

动因素。

3.通过资料收集和其他剖析形式直接评估数据
4.业务流程中的的数据依赖关系情况。
5.业务流程的技术架构和系统支持情况。

2 .定义数据质量战略(数据质量优先级必须与业务战略一致。)

1)了解并优先考虑业务需求。
2)确定满足业务需求的关键数据。
3)根据业务需求定义业务规则和数据质量标准。
4)根据预期评估数据。
5)分享调查结果,并从利益相关方那里获得反馈。
6)优先处理和管理问题。
7)确定并优先考虑改进机会。
8)测量、监控和报告数据质量。
9)管理通过数据质量流程生成的元数据。
10)将数据质量控制集成到业务和技术流程中。

3.识别关键数据和业务规则

1.数据质量管理工作应首先关注组织中最重要的数据;数据质量改进从主数据开始,主数据是任何组织最重要的数据之一
2.在确定关键数据之后,数据质量分析人员需要识别能描述或暗示有关数据质量特征要求的业务规则。

4 .执行初始数据质量评估(Proof of Concept,POC)

数据质量评估的最重要部分就是实际查看数据、查询数据,以了解数据内容和关系,以及将实际数据与规则和期望进行比较。
1)定义评估的目标
2)确定要评估的数据。重点放在一个小数据集,甚至数据元素,或特定的数据质量上
3)识别数据的用途和数据的使用者
4)利用待评估的数据识别已知风险,包括数据问题对组织过程的潜在影响
5)根据已知和建议的规则检查数据
6)记录不一致的级别和问题类型
7)根据初步发现进行额外的深入分析,以便:
  • 1.量化结果
  • 2.根据业务影响优化问题
  • 3.提出关于数据问题根本原因的假设
8)与数据管理专员,领域专家和数据消费者会面,确认问题和优先级
9)使用调查结果作为规划的基础
  • 1)解决问题,最好是找到问题的根本原因
  • 2)控制和改进处理流程,以防止问题重复发生
  • 3)持续控制和汇报

5.识别改进方向并确定优先排序

1.在证明改进过程可行后,需要识别潜在的改进措施,并确定其优先顺序
2.可以通过对较大数据集进行全面的数据分析来完成,以了解现有问题的广度
3.执行全面的数据剖析和分析的步骤基本上与执行小规模评估的步骤相同

6. 定义数据质量改进目标

1.当发现问题时,根据以下内容确定改进的投资回报率
1)受影响数据的关键性(重要性排序)。
2)受影响的数据量。
3)数据的龄期。
4)受问题影响的业务流程数量和类型。
5)受问题影响的消费者、客户、供应商或员工数量。
6)与问题相关的风险。
7)纠正根本原因的成本。
8)潜在的工作成本。
2.确定了根本原因并且需要进行技术变更的问题时,时时刻刻要注意防止问题再次发生。
3.预防问题的成本通常比纠正问题的成本要低,有时甚至要低几个数量级

7 .开发和部署数据质量操作

1.管理数据质量规则
数据质量规则和标准是元数据的一种关键形式。为了提高效率,需要将它们作为元数据进行管理。
  • 规则
    • 1.记录的一致性
      • 建立记录规则的标准和模板,使其具有一致的格式和含义。
    • 2.根据数据质量维度定义
      • 维度的一致应用将有助于度量和管理问题的过程。
    • 3.与业务影响挂钩
      • 虽然数据质量维度能够帮助理解常见问题,但它们本身并不是目标。不应采取与业务流程无关的度量。
    • 4.数据分析支持
      • 质量分析人员不应猜测规则。应根据实际数据分析情况验证规则
    • 5.由领域专家确认
      • 当主题专家确认或解释数据分析的结果时,知识就产生了。
    • 6.所有数据消费者都可以访问
      • 所有数据消费者都应该能够访问记录的规则。确保使用者能够就规则提出问题并提供反馈
2.测量和监控数据质量
业务数据质量管理过程取決于测量和监控数据质量的能力
  • 三个粒度级别上进行度量
    • 1.数据元素值
    • 2.数据记录或实例
    • 3.数据集
3.制定管理数据问题的操作过程
无论采用什么工具来监控数据质量,当数据质量团队成员对结果进行评估时,他们都需要及时、有效地对调查结果进行响应
  • 1.诊断问题
  • 2.制定补救方案
    • 纠正非技术的根本原因
  • 3.解决问题
  • 4.有效的进行问题跟踪
    • 1.标准化数据质量问题和活动
      • 由于不同行业描述数据问题的术语可能千差万别,因此为所用的概念定义标准词汇表非常重要。
    • 2.提供数据问题的分配过程
      • 推荐那些具有特定专业领域知识的人员,来推动事件跟踪系统内的分配过程
    • 3.管理数据问题升级过程
      • 数据质量问题处理需要根据问题的影响、持续时间或紧急程度制定明确的升级机制
    • 4.管理数据质量解决方案工作流
      • 事件跟踪系统可以支持工作流管理,以跟踪问题诊断和解决的进度
4.制定数据质量服务水平协议SLA
1.数据质量服务水平协议(SLA)规定了组织对每个系统中数据质量问题的响应和补救的期望。
2.数据质量 SLA 中定义的数据质量控制操作
  • 1)协议涵盖的数据元素。
  • 2)与数据缺陷相关的业务影响。
  • 3)与每个数据元素相关的数据质量指标。
  • 4)从每个己确定指标的数据元素出发,识别数据价值链上每个应用程序系统中的质量期望,
  • 5)测量这些期望的方法,
  • 6)每次测量的可接受性阈值。
  • 7)如果不满足可接受性阈值,应通知数据管理专员。
  • 8)预期解决或补救问题的时间和截止日期。
  • 9)升级策略,以及可能的奖励和惩罚。
  • 10)数据质量SLA还定义了与业务数据质量过程绩效相关的角色和职责
5.编写数据质量报告
评估数据质量和管理数据问题的要通过报告共享信息给数据消费者了解。

四.管理工具

1 数据剖析工具

数据剖析工具生成高级别的统计信息,分析人员能够据此识别数据中的模式并对质量特征进行初始评估。

2 数据查询工具

数据剖析只是数据分析的第一步,它有助于识别潜在问题。数据质量团队成员还需要更深入地查询数据,以回答分析结果提出的问题,并找到能够深入了解数据问题根源的模式。

3 建模和ETL工具

用于数据建模和创建ETL过程的工具对数据质量有直接影响。

4 数据质量规则模板

5 元数据存储库

定义数据质量需要元数据,而高质量数据的定义是元数据的一种价值呈现方式。

五.方法

1.预防措施(创建高质量数据的最佳方法是防止低质量数据进入组织)

1)建立数据输入控制。
创建数据输入规则,防止无效或不准确的数据进入系统。
2)培训数据生产者。
确保上游系统的员工了解其数据对下游用户的影响
3)定义和执行规则。
创建 “数据防火墙”,一个包含用于检查数据质量是否良好的质量规则表,然后用于应用程序(如数据仓库)中
4)要求数据供应商提供高质量数据。
检查外部数据供应商的数据结构、定义、数据源和数据出处
5)实施数据治理和管理制度。
确保定义并执行以下内容的角色和责任:参与规则、决策权和有效管理数据和信息资产的责任。
6)制定正式的变更控制。
确保在实施之前对存储数据的所有变更进行定

和测试

2.纠正措施

1)自动修正。
全自动,无人工干预
2)人工检查修正。
工具自动纠正后,人工检查提交
3)人工修正。
纯人工

3.质量检查和审核代码模块

4.有效的数据质量指标(管理数据质量的一个重要组成部分是开发度量指标,以告知数据消费者对其数据使用非常重要的质量特征。)

1)可度量性。
数据质量指标必须是可度量的---它必须是可被量化的东西
2)业务相关性。
虽然很多东西是可测量的,但并不能全部转化为有用的指标。
3)可接受性。
数据质量指标构成了数据质量的业务需求。
4)问责/管理制度。
关键利益相关方应理解和审核指标。业务数据所有者对此负责,并由数据管理专员采取适当的纠正措施。
5)可控制性。
指标应反映业务的可控性,如果度量超出范围,应该触发改进行动。如果没有任何响应,那么这个指标可能没有什么用处。
6)趋势分析。
指标使组织能够在一段时间内度量数据质量改进的情况

5.统计过程控制(统计过程控制(SPC)是一种通过分析过程输入、输出或步骤的变化测量值来管理过程的方法。)

SPC使用的主要工具是控制图,它是一个时间序列图,包括平均值的中心线(集中趋势的度量),以及描述测算的上下控制界限(围绕中心值的可变性)。在一个稳定的过程中,超出控制范围的度量结果表明了异常状况的存在。

6.根本原因分析

六.实施指南

1.就绪评估/风险评估

1)管理层承诺将数据作为战略资产进行管理。
2)组织对数据质量的当前理解。
3)数据的实际情况。
4)与数据创建、处理或使用相关的风险。
5)可扩展数据质量监控的文化和技术就绪。

2.组织与文化变革

1.工具不是全部
2.人人有责
3.质量有成本
4.培训和训练

3.有关数据价值和低质量数据成本的指标

为了提高组织对数据质量管理需求的认识,一种方法是通过指标来描述数据价值和改进带来的投资回报

4.IT/业务交互的操作模型

业务人员和T数据管理人员要能很好地合作将数据质量的定义转换为查询命令或代码。

5.项目执行方式的变化

项目监督必须确保项目资金覆盖与数据质量相关的步骤,谨慎的做法是确保尽早发现问题,并在项目中预先建立数据质量预期。

6.对业务流程的更改

数据质量团队需要能够评估,并对影响数据质量的非技术 (以及技术)过程的变更提出建议。

7.为补救和改进项目提供资金

数据问题是不会自行修复的,应衡量好补救与改进项目的支出与收益。

8.为数据质量运营提供资金

维持数据质量需要持续改进操作来监控数据质量、报告发现的问题,并在发现问题时继续管理问题

七.数据质量和数据治理

1. 数据质量制度

制度应包括:
1)制度的目的、范围和适用性。
2)术语定义。
3)数据质量团队的职责。
4)其他利益相关方的责任。
5)报告。
6)策略的实施,包括与之相关的风险、预防措施、合规性、数据保护和数据安全性等。

2. 度量指标

数据质量的高阶指标包括:
1)投资回报。
2)质量水平。
3)数据质量趋势。
4)数据问题管理指标。
5)服务水平的一致性。
6)数据质量计划示意图。

八.总结

实现数据价值的前提是数据可靠和可信,换句话说,高质量的数据才有价值。与数据治理一样,数据质量管理不是一 个项目了事,而是一项持续性工作

版权声明:未经许可,不得抄袭。转载请此处留言或公众号后台沟通。更多关于CDMP认证和数据治理的交流请关注公众号(Data is King),公众号回复‘dmbok思维导图’ 可获取思维导图版知识点总结。