如果要评选大数据或者数字化转型领域中哪个词最让人费解、最讲不清楚,“数据治理(Data Governance)”绝对是候选之一。说实话,笔者到现在也没有完全整明白,因为数据治理包含的范围太广了,可以说是包罗万象,任何和数据相关的行为和动作,不管是技术手段还是业务规则,不管是组织架构还是规范制度,都可以归入数据治理的范畴。

 

数据治理最权威的定义应该来自于国际数据管理协会(DAMA):数据治理是对数据资产管理行使权力和控制的活动集合。在DAMA发布的《数据管理知识体系指南(DMBOK2.0)》中给出了数据治理车轮图如下:

数据治理与档案信息资源体系建设_鸿翼

 

 

从上图可以看出,数据治理位于车轮图的正中央,是数据架构、数据建模、数据存储、数据安全、数据质量、元数据管理、主数据管理等10大数据管理领域的总纲,为各项数据管理活动提供总体指导策略。

 

可以说,数据治理是企业战略、组织架构、数据标准、管理规范、数据文化、技术工具的一个综合体。关于数据治理的详细探讨超出了本文的范围,感兴趣的读者可以查阅相关文献。本文要探讨的是档案数据需不需要治理?应该如何治理?

 

国家档案局档案馆(室)业务指导司领导今年4月份在“中国电子文件管理论坛”上作了《从数字档案馆(室)到智慧档案的路径和构想》的报告,其中给出了档案数据治理的框架如下图红框所示:

数据治理与档案信息资源体系建设_鸿翼_02

 

上图将档案数据治理划分为数据采集存储、数据治理分析和数据处理汇聚三个业务域,而数据治理分析又包括数据标准、数据模型、数据质量、数据处理、数据安全和数据校验六个组成部分。

 

总之,关于数据治理的说法很多,也不存在对与错的问题,只有适不适合的问题。笔者想说的是档案数据治理应该特别强调前端控制,新版《中华人民共和国档案法》第三十七条规定:“电子档案管理办法由国家档案主管部门会同有关部门制定”。也就是说,档案部门需要制定各类电子数据、电子文件归档的规范标准和管理办法,并建立档案信息资源管理体系,将符合归档要求的各类电子数据、电子文件接收入库,纳入档案信息资源库管理范围,实际上这就是档案数据治理!换句话说,档案部门要求提交归档(移交)的数据就是治理好的符合归档(移交)要求的数据,而归档(移交)接收之后进入档案信息资源库的就是规范的数据,已经基本不需要治理。

 

当然,规范有序、张弛有度的档案信息资源体系的构建是前提条件,否则哪怕是符合归档(移交)要求的数据入库之后也会随之混乱,从而又需要重新治理。以下笔者结合多年的档案信息化项目实践经验给出档案信息资源体系的建设规划。

 

档案信息资源体系

 

档案信息资源体系包括统一的目录体系、交换体系和档案信息资源库的建设。在合理的信息分类的基础上,建立统一的目录和索引,建成并逐步完善信息资源目录体系;建立数据共享交换机制,提供统一的标准和规范交换体系;对信息资源的建设进行统一的规划,并充分考虑到将来的扩展,分期分批组织建设档案信息资源库。档案信息资源体系示意如下图所示:

数据治理与档案信息资源体系建设_信息资源_03

 

其主要组成部分介绍如下:

档案信息资源库

是档案信息资源体系最为核心和重要的组成部分。档案信息资源库的建设,要做到结构合理、标准统一、管理规范,实现信息的有序流动和广泛共享。根据档案系统的特点,档案信息资源库的初步规划可以划分为目录数据库、全文数据库、多媒体数据库、规范标准库、档案管理库和系统维护库六部分;

目录体系

通过定义信息资源目录体系,建立信息资源管理机制,实现目录注册、目录管理和信息检索等功能;

元数据库

元数据是描述数据的数据,通过元数据,应用程序可以知道在信息资源库中存在哪些表和字段以及它们之间的关系,应用程序在正确访问、操作处理和显示数据时需要参考和读取元数据信息。通过建立统一的元数据库,为信息资源在各个应用系统中的共享奠定基础;

数据接口

包括元数据访问接口、数据访问接口和数据交换接口。信息资源体系通过对外提供访问接口,达到有效屏蔽网络异构、操作系统异构、数据库异构给数据访问带来的影响,保证信息资源库技术变化不会影响到应用系统的访问的目的,从而既实现了应用的透明访问,又支持了信息资源库的不断发展和管理机制的不断完善。

02

目录体系设计

 

目录体系是信息资源体系的一个重要组成部分,它相当于是信息资源的地址簿,外部应用对信息资源库的访问都是通过目录体系完成。特别是对于档案信息资源而言,档案全文(不管是扫描图像文件还是原生电子文件)都是非结构化数据,按照一定的目录结构存储在文件系统中,需要通过目录体系进行指引和调用。目录体系具有以下功能:

目录注册

建立描述资源的核心元数据,标识并描述所有的信息资源,包括信息资源的名称、背景、组织、关系等信息;

目录管理

建立描述信息资源的分类体系,以此为基础将所有信息资源分类管理;

 

信息检索

与信息资源存储相关联,描述资源的访问信息,包括权限、访问方法、访问地址等,以此为基础通过资源目录记录的信息获取资源实体。

 

典型的目录结构如下图所示:

数据治理与档案信息资源体系建设_数据_04

 

左侧的目录结构和右侧的电子全文根据档号规则建立,实现了目录数据和全文数据的自然关联,便于资源的访问调用。


元数据库设计

由于档案信息资源库中存储的档案类型包括但不限于文书档案、声像档案、科技档案、会计档案、实物档案、各类专业档案、各类专题档案、各类民生档案等,为了实现各种档案类型的统一维护、快速扩展和跨门类查询,有必要建立元数据库。目录体系中涉及到的元数据也都存储在元数据库中。

 

在元数据库中首先按照相关标准规范的要求建立各种档案类型的数据结构模板库,新增档案类型时既可以在继承现有数据结构模板基础上扩展,也可以新建数据结构模板便于将来再利用。这种基于模板的自定义表结构设计一方面考虑到数据结构的规范性,同时又充分考虑到数据结构扩展的灵活性和快速性。

 

数据结构自定义的界面操作示意如下图所示(左侧档案类型树根据相关规范标准提供了各类数据结构模板,右侧可以对数据结构进行维护):

数据治理与档案信息资源体系建设_档案管理_05

 

04

资源建库(以档案馆为例)

档案信息资源的来源包括但不限于馆藏档案数据录入与档案数字化成果的接收、电子档案移交接收、日常管理信息的录入、网上政务大厅归档数据接收、实体档案辅助管理信息的采集、备份数据的导入、现有的档案数据库的迁移等各种方式,如下图所示:

数据治理与档案信息资源体系建设_资源库_06

 

说明如下:

1. 档案信息资源库中的数据,从不同角度来看可以划分为多种类型:

从数据产生的性质来划分

目录数据:

记录了档案的条目信息和元数据信息,存放在关系数据库中;

全文数据:

以文本或影像格式存放在存储设备上,记录了档案的全文内容;

多媒体数据:

特殊格式的全文数据,以音视频格式存放在存储设备上,记录了档案的全文内容;

业务规则数据:

包含各类业务规则和规范标准信息,比如业务规则库、元数据模板、数据字典信息等;

档案管理数据:

记录了档案从收集到长期保存或销毁的全过程、全方位管理信息;

系统维护数据:

记录了系统运行的各种信息,包括系统初始化数据、用户权限数据、系统日志等。

 

从数据的档案分类属性来划分

 

包括文书、照片、声像、科技、会计、实物、婚姻等类型。


从数据产生的利用范围来划分

开放数据:

包括对公众开放的数据和对政府工作人员开放的数据,需要根据统一的要求来划定;

控制数据:

不能够在互联网上开放的数据,但这些数据可以通过申请授权后提供利用;

保密数据:

不能开放,只能由档案管理员使用或通过申请后只能到档案馆查询利用的数据;

系统数据:

管理数据、系统维护数据一般是系统内部产生的数据,这些数据只面向档案管理员和系统管理员。

 

2、信息资源收集主要包括三种方式:

在线录入:

提供了档案目录信息的手工录入等方式;

接收进馆:

通过各种数据交换手段,将OA系统、政务系统和各类业务系统产生的电子档案数据接收进馆;

数据导入:

通过脱机存储设备的方式完成数据移交,比如网络条件不具备的立档单位移交数据。

 

3、从数据利用的角度讲,分别面向档案管理员、系统管理员、各级领导、机关人员、社会公众和档案利用者。