数字资源长期保存活动是为了保存人类的科学文化遗产,为公众提供持续服务,并为未来提供历史证据。在对数字资源进行长期保存的过程中,不可避免地要面对环境、技术、人员等方面的改变,要让用户信任所获得的信息,保存活动必须具备高可信赖性。本文中我们将对国际上享有盛誉的“可信数字仓储”(Trusted Digital Repositories,TDR)及其实践应用案例进行介绍。

 

发展历程

 

早在1996年,美国研究图书馆协会(Research Library Group,RLG)发表的《数字信息保存》报告中就已经提到:保存数字资源会比保存纸本相似物需要更多的责任、更好的技术和资源,仅仅由保存机构自己宣称可以保存数字资源是不可靠的,需要一种公开和公共的机制,来证明保存机构确实有能力胜任数字资源长期保存的任务。随后于2000年与美国联机计算机图书馆中心(Online Computer Library Center,OCLC)共同启动可信数字仓储的研究,并于2002年发布“可信数字仓储的属性和责任”研究报告。2003年,RLG与美国国家档案和文件管理署(National Archives and Records Administration,NARA)共同启动认证指标的研究,于2005 年发布认证指标草案,2007年正式发布《可信任仓储审计及认证:指标与列表》(Trust worthy Repositories Audit&Certification: Criteria and Checklist,TRAC),并于2006~2007两年间对多个项目进行实验性审计。2012年TRAC正式成为国际标准ISO 16363。

 

除了RLG在ISO 16363的出台过程中起到了主导作用之外,世界上还有一些其他组织也作出了重要贡献,如下表所示:

 

可信数字仓储(TDR)及其实践应用案例_成熟度

 

信任基础

 

保存机构要获得目标群体的信任作为受托方保存数字资源,或者保存服务的第三方提供者要获得保存机构的信任作为受托方帮助保存机构保存数字资源,按照市场规则均需签订具有法律和经济约束力的保存契约,同时,还需要一个可操作的认证程序来评判受托方的可信赖性,并作为可公开核查的信任基础。

 

保存机构要获得目标群体的信任至少需满足四个方面的条件:

 

法定职责

相关法律法规包含了此保存机构开展长期保存的责任、管理措施,以及相应的经费和人员投入机制。

历史角色延续

如档案馆、图书馆、博物馆等对传统资源进行长期保存的机构,容易获得目标群体对其进行数字资源保存的信任。

市场约束

按照市场规则,通过签订具有法律和经济约束力的保存契约来获得目标群体的信任。

技术保障

采取必要技术措施(如冗余存储、异地存储、多套备份等) ,防备人为或其他不可抗力造成的数字资源变化或损毁。

 

实际上,委托方(数字资源提供方)信任长期保存系统提供的数字内容涉及两个相互关联的问题:被保存的数字内容本身是否变化,以及保存系统的可靠程度。很多情况下往往允许数字内容发生一定的变化,例如保存所需的“封装”;但另一方面,也需要确保数字内容的“不变性”,并提供一定机制进行认证和鉴别。由于委托方往往不具备鉴别数字内容是否变化的能力,所以信任数字内容的问题通常直接演变为信任保存系统(可信数字仓储)的问题,这就需要第三方认证组织参照一定的审计和认证标准对保存系统进行审计和认证并给出客观公正的评价。

 

可信数字仓储(TDR)及其实践应用案例_元数据_02

 

标准介绍

 

数字仓储是在网络环境下提供对数字对象保存、访问和管理的系统,它能够将大量的数字信息囊括其中,并且保证这些数字信息的安全与完整。那么什么样的数字仓储系统才是值得信赖的呢?这就是ISO 16363:2012《空间数据和信息传输系统 - 可信任数字仓储的审计和认证》要解决的问题。

 

ISO 16363继承了TRAC中“三位一体”的认证框架,即从TDR组织机构、系统功能、基础设施三方面进行考量和评估。一是对组织机构的认证:TDR项目的建设都是依赖实体机构,对实体机构的认证是第一位的,认证的重点主要是制度政策、人力、财力和法律四个方面;组织机构本身要有完整的制度政策,拥有长期保存的战略规划,为TDR的建设提供指导思想。二是对系统功能的认证:对TDR系统功能认证可分为六部分,分别对应OAIS的六大功能实体。三是对基础设施的认证:主要包括技术设施的完备性和安全性,同时也包括对于技术基础设施的风险管理要求。

 

“三位一体”的认证框架如下图所示:

 

可信数字仓储(TDR)及其实践应用案例_鸿翼_03

 

ISO 16363基于“三位一体”的认证框架对TDR的认证和审计指标进行了分解、细化,以提高认证和审计过程的可操作性。三级指标清单如下表所示:

 

可信数字仓储(TDR)及其实践应用案例_成熟度_04

 

总体而言,ISO 16363认证标准为TDR的建设起着三方面的作用:一是建设指南的作用:从审计的角度对TDR做出规范的同时,也为 TDR 的构建提供客观的分析思路和框架;二是内部评估作用:用于TDR组织的自我评价,寻找差距,持续改进;三是外部审计认证作用:为已经建成的TDR提供了一套较为完整的资格认证系统。

 

应用案例

 

ISO16363没有局限于某一特定的组织、学科背景中,而是致力于制定一套国际化的标准和认证过程,以实现全球范围内的文化机构对数字资源长期、有效保存的目的。所以,它可以作为可信数字仓储(TDR)的规划、构建和维护管理的参考工具,并且广泛适用于不同背景下的存储机构,包括图书馆、博物馆、档案馆、文献中心,科学情报资料中心等。

 

20多年来,可信数字仓储的理念在信息存储与数字保存领域引起了广泛重视,对它的研究也不仅仅局限于标准制定方面,如数据接口与信息转换、软件开发与调试、标准的进一步正规化与推广等。而多家机构、多种项目的联合为可信数字仓储的发展提供了新的途径。它们针对保存机构面临的问题构建了不同角度的能力成熟度模型(Capability Maturity Model,CMM),包括保存机构、保存环境、保存方案、保存活动等。

 

下面我们就来介绍几个国际上较为成熟的可信数字仓储认证和审计方面的实践应用案例。


4.1   LAC的TDR项目

作为从事信息存储与利用的专业性机构,加拿大国家图书档案馆(Library and Archives Canada,LAC)一直致力于安全可靠的信息存储与利用的研究。为确保其数字资源长期保存和利用,LAC于2006年开始规划可信数字仓储项目,并于次年5月正式发布了可信数字仓储三年行动计划(2008~2010)。

 

为履行LAC的法定义务,积极应对文件管理危机,保证加拿大历史文化数字遗产资料的长期持续可利用,LAC拟订了一系列数字保存政策,其主要措施即为建立可靠的、灵活的、整合的数字保存基础架构,用以鉴定、收集、管理、访问数字资产。

 

LAC以一系列技术和业务要素为支撑,其中最主要的两大基础是OAIS参考模型和可信任仓储审计与认证TRAC。LAC 构建的核心目标是通过协商转移协议收集数字资产,并面向LAC内部用户和公众提供利用。数字资产提供者通过获取渠道中的7种主动提交方式和3种被动提交方式,将相应数字资产提交至TDR。通过自动摄取功能将数字资产转至摄取区,并依次对数字资产进行解密、病毒扫描、解压、完整性检查、文件格式元数据提取和描述元数据提取,在此之后完成提交信息包(SIP)的封装。同时,LAC管理人员手动对数字资产进行元数据扩充、对象预览、评估审核、浏览器检索,并将其链接到馆藏管理库。SIP 随后被移交至过渡文件仓储区,由工作人员评估并创建持久性标识和数字代理,之后创建并存储保存信息包(AIP)。移交至档案存储区后,其中档案文件根据分级存储管理存储于档案文件仓储,元数据按照副本策略存储于元数据仓储,并且对这两个数字仓储执行持续完整性监控和自我修复功能。数字保存区域将持续进行文件格式和硬件设备的风险监控,并根据数字保存策略在必要时进行迁移。通过解析永久标识符和基本格式处理形成分发信息包(DIP)面向LAC内部用户或公众提供利用。

 

可信数字仓储(TDR)及其实践应用案例_鸿翼_05

 

LAC通过借鉴OAIS参考模型,根据自身的能力与目标,制订了一套建立可信数字仓储的方案。方案包括六个部分:TDR顶层设计、功能模块的构建、工具运行的框架、信息获取环节各个模块之间的关系、元数据的处理流程、信息触点管理的一体化。在每个环节中合理布置各种工作,并结合TDR 认证标和审计标准对各项工作进行评估,确保可信数字仓储的正常运行。

 

4.2   DPCMM模型

美国威斯康星州立大学的L. Ashley 教授和加拿大英属哥伦比亚大学的C. Dollar教授于2007 年首次提出了数字保存能力成熟度模型(Digital Preservation Capability Maturity Model,DPCMM),随后,该模型被世界各地的多个数字保存机构或者项目采用。2015年6月,在几年实际应用和实例研究基础上,经过改进和补充又发布了DPCMM的新版本。新版本将关键过程域从之前的12个增加到15个,并给出了用于机构制定发展计划路线图的参考样例。DPCMM依据保存的电子文件中风险文件的比例大小,将机构的保存能力成熟度划分为最低、较低、中级、高级、最优这5个层级。从基础设施和数字保存服务两大方面将OAIS中的功能要素归纳成 15个关键过程域:

 

可信数字仓储(TDR)及其实践应用案例_成熟度_06

 

其中数字保存基础设施包括政策、策略、管理、协作、技术知识、开放标准、特定社区等七个过程域;数字保存服务包括电子文件调查、摄入、存储管理、设备/媒体更新、完整性、安全性、保存元数据、访问等八个过程域。

 

DPCMM是一套数字保存能力成熟度评价模型,基于OAIS参考模型、TRAC和ISO16363的审计标准,并且吸纳了众多现行数字保存仓储库的优秀实践,能够反映数字保存管理从无序、无组织、缺乏系统化的状态,到逐步成熟的各层级数字保存能力的发展演变过程。

 

DPCMM从2007年首次被提出到现在,已经相继在美国特拉华州图书馆、加拿大多伦多市图书馆、美国州际档案馆及美国众多数字保存组织得到认可、使用和改进。

 

4.3   DPEMM模型

 

2012 年7 月,澳大利亚国家及州图书馆联合会(National and State Libraries Australasia,NSLA)为了评估成员馆的长期保存活动,基于CMM 提出了保存环境成熟度模型(Digital Preservation Environment Maturity Matrix,DPEMM),同时总结了一个数字保存环境高级功能表,用于机构进行自我评估和制定发展计划。

 

可信数字仓储(TDR)及其实践应用案例_基础设施_07

 

NSLA 的保存环境成熟度模型的构建主要分为3个关键领域:确认是否满足基本假设条件;利用高级功能表自我评估,识别出功能要素;CMM的使用。

 

1

确认是否满足基本假设条件:首先,NSLA要求成员馆填写是否满足假设条件,这些条件是第二步中功能要素的基础。同时这样做也是为了保证相关透明度以及与下次结果对比的自信心。该成熟度模型的基本假设是,一个组织具备下列条件:

a)积极收集数字资源,包括原生的和经过数字化的;

b)坚定不移地长期保存其数字资源;

c)有专门用于长期保存的资源(包括具有相关技能的员工或供应商);

d)有可持续的融资模式;

e)愿意遵守OAIS 规定的责任。

2

2.利用高级功能表自我评估:对照数字保存环境高级功能表进行自我评估,这个功能表实际上类似于一个调查表,目的是让使用者运用“近期CMM自我评定”和“计划(3年后)CMM自我评定”两个时间点对机构的数字保存环境进行评估,识别出风险点和功能要素。

3

3.CMM的使用:该模型的最后一步就是纳入一种机制来明确组织的每个要素对应的级别,因此NSLA给出了一个样例来示范如何将CMM模型的5个等级应用到评估近期数字保存活动的成熟度级别中,同时也作为自我评定等级的判断依据。

 

NSLA调研了其10个成员馆的情况,总结分析反馈结果,发现其成员馆正朝着正确的方向发展,但是距离达到成熟的、可持续的并且符合目的的数字保存过程还有差距。NSLA 已经把数字保存作为优先发展的业务,并将持续关注在政策、产品和基础设施方面的合作,以填补这些差距带来的需求。

 

4.4  其他研究项目

 

1. 北美“研究图书馆中心”(Center of Research Library,CRL) 是一个联合数所大学和独立的研究型图书馆组成的国际机构。它的任务是收集并保存来自各地的报纸、期刊、文件、档案等材料,并对外提供信息服务。在2005年,CRL承担了一个项目,内容是根据审计和认证数字档案馆的要求,制定具体的过程和活动。在这个项目中,CRL就是基于RLG和NARA关于可信数字仓储认证的研究成果进行的。而在2009年,CRL在对其两个成员(Portico和HathiTrust)的数字仓储进行可信评估过程中,同样使用了相关标准。CRL认为,对于仓储来说,实行可信评估工作是必要的,应当及时进行,CRL也积极探索着更为适合其成员的评估标准和方法。

 

2. 澳大利亚可持续知识仓储伙伴计划(Australian Partnership for Sustainable Repositories,APSR)的目的是为数字格式学术资源的高质量管理,建立可靠的综合性管理中心。这与可信数字仓储的理念基本一致。其下属的项目中相当一部分都涉及仓储中的信息交换环节,这些研究与可信数字仓储是相辅相成的。

 

3. 欧盟“用于保存、获取、检索的文化、艺术、科学知识”(Culture, Artistic and Scientific knowledge for Preservation, Access and Retrieval, CASPAR)项目,承担了许多关于数字信息保存方面的研究,其中也包括对可信数字仓储的研究。CASPAR于2009年1月发布了一篇关于可信数字仓储的调查报告,这篇报告通过问卷的方式统计得出以下两方面信息:(1)决定一个仓储是否可信任的要素是什么;(2)对可信任仓储较为重要的规划是什么。CASPAR 得出的结论是,一个仓储能够优先进行有效地存储并符合国际标准是最为重要的两个要素,这也为ISO16363的诞生奠定了基础。