现在讲数据管理体系框架比较完备的有国际数据管理协会的《DAMA数据管理知识体系指南》、工信部的《DCMM数据管理能力成熟度评估模型》、信通院的《数据资产管理实践白皮书》等,为了后面描述方便,下面简称《DAMA》、《DCMM》及《白皮书》。

《DAMA》针对数据管理体系给出了自己的框架,如下图:

数据架构管控价值_java

《DAMA》确定了10个数据管理职能,也就是10个能力域,分别是数据架构管理、数据开发、数据操作管理、数据安全管理、参考数据和主数据管理、数据仓库和商务智能管理、文档和内容管理、元数据管理、数据质量管理数据治理

新手看到这个框架肯定懵逼,一方面这10个职能之间似乎没什么逻辑关系,根本记不全,另一方面,数据治理作为单独的职能放出来,会疑惑跟管理有什么区别,虽然我们偶偶也会咬文嚼字,但一旦治理和管理这种非常相似的词被放到同一个语境,会让大多数人不知所措。

那么,再来看看《DCMM》。

《DCMM》相对于《DAMA》更容易理解一点,共包括8个能力域29个能力项,分别是数据战略、数据治理、数据架构、数据应用、数据安全、数据质量、数据标准、数据生存周期,如下所示:

数据架构管控价值_大数据_02

与《DAMA》相比,主要有以下区别:

1、数据战略从数据治理里面被剥离出来,单独成为一个能力域,这是仁者见仁智者见智的事情。

2、新增了数据应用能力域,其应该包含了DAMA的商务智能管理,但内涵更广,还包括开发共享服务等等,这主要是受时代背景的影响,毕竟DAMA发布的那个年代,数据开放共享的应用价值远未被认识和理解。

3、新增了数据标准能力域,DAMA中的参考数据和主数据管理被纳入其范畴,也就是DAMA的主数据和参考数据被降级了,但这又是仁者见仁智者见智的事情。

4、新增了数据生命周期管理能力域,这是一个很好的归纳,实际就是把DAMA中的数据开发、数据操作管理、数据仓库管理都包括进来了,但更为全面,而且逻辑性更强一点。

5、数据架构新增了内涵,包括了元数据管理能力项,相对于DAMA,元数据管理被降级了。

最后,再来看看《白皮书》。

《白皮书》包括8个管理职能和5个保障措施,8个管理职能包括数据标准管理、数据模型管理、元数据管理、主数据管理、数据质量管理、数据安全管理、数据价值管理数据共享管理,5个保障措施分别是战略规划、组织架构、制度体系、审计制度培训宣贯,如下所示:

数据架构管控价值_编程语言_03

与《白皮书》相比,主要有以下区别:

1、元数据管理和主数据管理又从数据标准管理里面剥离出来,成为独立的能力域

2、数据架构管理没了,只保留了一个数据模型管理

3、数据应用管理没了,只留下一个数据共享管理

4、多了数据价值管理,主要用来做数据价值评估

5、数据治理没了,被换成了保障措施,包括战略规划、组织架构、制度体系、审计制度、培训宣贯

通过以上比较会发现,《DAMA》、《DCMM》及《白皮书》虽然都在讲数据管理框架,共性很多,但还是有不少差别,那么,到底应该采纳哪个才能最好的体现数据管理的内涵且逻辑更为自洽呢?

个人认为,数据管理框架应该包括两大部分内容,第一类是数据管理活动,第二类是数据治理,即保障数据管理活动能正常开展的控制活动,所谓管理的管理,《白皮书》生怕大家看不懂数据治理,还把数据治理改成了保障措施。

但无论是数据管理活动还是数据治理,我们其实都想得到一个答案,即这些能力域的划分有道理吗?这些能力域之间有没有逻辑关系?

先谈数据治理。

《DAMA》的数据治理包含战略、组织、政策、审核等内容,《DCMM》的数据治理包括组织、制度、沟通等内容,再加上单独的数据战略,《白皮书》的保障举措包含战略、组织、制度等内容,可以看出来,三者基本是一致的,而且逻辑比较简单。

《DAMA》阐述的数据治理内容其实是最全面的,但有点啰嗦,不便于理解和记录,我这里斗胆,把数据治理的核心职能划分为战略规划、组织保障、政策制定及审核沟通四项,但文化啥的就不写了。

战略规划保证了数据管理活动的正确方向,组织保障确保了数据管理有人来执行。

政策制定确保了数据管理活动开展的原则,审核沟通确保为数据管理活动制定的相关规范、标准和流程获得了组织的授权并得以执行。

再谈数据管理活动。

从《DAMA》、《DCMM》及《白皮书》可以看到,数据管理活动的能力域并不完全一样,大家各有各的侧重点,大概是因为各种数据管理活动都是在特定的背景下为解决实际的数据问题产生的,不是抽象总结的结果,这导致各类数据管理活动之间的边界并不是很清晰,甚至可能有交叉。

比如《DAMA》包括了主数据和参考数据管理,却不包括数据标准管理,《DCMM》包括了数据标准管理,主数据和参考数据却只是作为标准管理的一部分存在,显然逻辑上有问题,因为主数据和参考数据管理的内涵远超数据标准,《白皮书》做了个折中,把主数据管理、参考数据管理和数据标准管理并列,但显然内容是有交叉的,因为主数据管理、参考数据管理肯定也有标准管理的内容。

DAMA没有把数据标准管理单列为独立的数据管理活动,也许是因为不严谨,但为啥《DCMM》及《白皮书》还是将数据标准管理列为独立的数据管理活动呢?

也许跟国内金融行业对数据标准的重视有关,因为金融行业是受强监管的,需要数据标准作为监管的抓手。

华为数据之道在讲数据湖底座的时候,给出了下面这张架构图,右边数据资产管理罗列了很多的数据管理活动,你会发现指标管理竟然跟元数据管理等是并列的。

问了原因,才知道当初华为公司数据管理的一个业务痛点就是指标问题,因此在架构图中特别标注出来,不严谨但很实用。

数据架构管控价值_数据架构管控价值_04

同样的问题发生在元数据管理上,《DAMA》和《白皮书》都将元数据管理作为独立的能力域,而《DCMM》却将元数据管理放到了数据架构下面,这个逻辑上不太通,因为元数据管理虽然跟数据架构有关系,但肯定不是包含和被包含关系。

元数据是对数据的描述信息的全面管理,不仅仅是对数据架构的描述,更包括对数据质量等所有对象的描述,为什么《DCMM》要这么做呢?也许跟《DCMM》本身的用途有关,毕竟它是用来评估数据管理成熟度的,需要能方便评估,执行到位。

《DAMA》的能力域划分是严谨的,但无法超越时代。比如在数据应用层面,《DAMA》只提了商务智能,但到了大数据时代,商务智能这个词已经无法涵盖这个时代应用的全部内涵了《DCMM》、《白皮书》提到了数据应用,数据共享等内容,这是与时俱进的结果。

综合以上,我这里初步给出新的数据管理活动框架,包括8个管理活动:数据质量管理、数据架构管理、元数据管理、主数据和参考数据管理、数据安全管理、数据生存周期管理及数据应用管理。

那么,这8个数据管理活动互相之间有逻辑吗?为什么是这8个呢?

数据的价值创造过程分为数据生成、数据处理和数据消费三个阶段,对应这三个阶段的关键数据管理活动就是数据架构管理、数据生存周期管理及数据应用管理。

数据架构管理确保数据被正确的设计和生成。

数据生存周期管理确保数据高效的采集、存储、需求、开发、运维和销毁。

数据应用管理确保数据能充分共享、开放及服务。

为了保障这三个阶段顺利进行,有四项基础管理活动打穿了各个阶段,分别是数据质量管理、元数据管理(数据标准管理)、数据安全管理、主数据和参考数据管理。

数据质量管理、数据安全管理要贯穿数据的价值创造过程应该没有异议。

主数据和参考数据管理其实也一样,比如在数据架构设计的时候就要充分考虑,应用建设更离不开主数据和参考数据。

元数据管理是否纳入我有点犹豫,原因如下:

一是因为元数据的概念范畴实在太大了,bit世界除了数据本身,剩下的都是对数据的描述,也即元数据,数据管理的所有活动都有元数据管理的内容。

二是元数据是个纯技术名词,通用性太强容易失了焦点,你跟别人提元数据管理,别人根本不知道具体要解决什么问题,DCMM索性把元数据管理放到了数据标准管理下面,强调标准化这个属性,因此,数据标准管理替换元数据管理也有合理之处,虽然元数据管理除了数据标准管理还有其它的内容,但这些内容太散了,还不如在数据生存周期等活动中自己按需应用就可以了。

如果元数据管理要强调元数据的统一管理,我觉得也大可不必,也根本统一不了,这是为实践所证实的。比如很多所谓的元数据管理系统,包括的仅仅是数据目录、血缘分析、影响分析等有限的功能模块,但难道cmdb不是元数据?也没见olap和oltp的元数据获得了统一管理。

那么,为什么就是这四项基础数据管理活动,还有其它的吗?

这个我回答不了,基础数据管理活动应是实践中碰到共性问题抽象总结出来的,也许随着数据应用的拓展,还有新的活动会被总结出来,比如数据要素只有流动起来才能发挥出更大价值,也许未来数据共享开放能够单独成为一项数据管理活动。

基于以上分析,我用下面这张数据管理框架图来做个总结,即数据管理的“434”新框架。

"4"即数据治理的四个方面,它能保障数据管理活动顺利开展。

“3”即数据的价值创造过程中涉及的三项数据管理活动。

最后一个“4”即贯穿数据价值创造过程始终的四个基础数据管理活动。

数据架构管控价值_大数据_05

希望你对数据管理的内在逻辑有更清晰的理解。

数据架构管控价值_大数据_06