档案信息化行业的老兵想必对10多年前的EEP封装包印象深刻,其自包含、自描述、自证明的“洋葱结构”曾经火遍大江南北,为电子文件的真实性和完整性保证提供了一种重要手段,但其过分严谨刻板的封装结构也曾让很多档案从业人员抓狂。笔者曾经主导过国内第一款EEP封装工具的研发工作,那种又爱又恨的感觉至今难以忘怀。那为什么曾经这么火爆的EEP封装包现在销声匿迹了呢?我们今天就来聊聊这个话题。

 

#1:EEP封装

根据DA/T 48-2009《基于XML的电子文件封装规范》,封装、封装格式和封装包的定义如下:

EEP封装?METS封装?还是ZIP封装?_封装

这个标准中描述的“封装包”就是“EEP封装包”,即Electronic records Encapsulation Package(EEP)。

 

但实际上EEP封装包也不是由DA/T 48-2009首先提出的,它在很大程度上借鉴了当时国际上主流的两种电子文件封装方法之一的VEO(Victorian Encapsulation Object)封装格式(另一种是METS封装格式,Metadata Encoding and Transmission Standard)。而VEO封装格式是由1999年澳大利亚电子文件战略项目VERS(Victorian Electronic Records Strategy)提出的,可用于电子文件生命周期各个阶段的封装,例如捕获、归档、移交或长期保存阶段等。

 

EEP封装包最大的特点就是“洋葱结构”:采用层层包裹的方式实现对电子文件内容的封装。最外层是文件修订元数据(每次修订就在外面再包裹一层),中层是文件元数据,最里层才Base64编码之后的文件二进制内容,而且每一层都用数字签名进行锁定。“洋葱结构”如下图所示:

 

 

EEP封装?METS封装?还是ZIP封装?_封装格式_02

 

这个结构看上去非常完美,真正做到了自包含(洋葱结构)、自描述(元数据)、自证明(数字签名),但在实际操作过程中存在以下三个方面的问题:

01

洋葱结构层层包裹,哪怕是对封装包再小的修改也需要包裹一层,最终在整个文件生命周期会出现一个无比膨胀的EEP封装包,这给将来的追溯和利用带来很大困难;

02

文件内容经过Base64编码之后嵌入到XML中作为内核,Base64编码本身就存在膨胀问题,封装和编解码过程非常耗费资源,如果存在多个电子文件一起封装的情况(比如多个扫描影像文件),对计算资源的要求相当高

03

层层封装层层签名的方式看似完美,实则给电子文件套上了沉重的“枷锁”,由于数字签名存在证书过期、算法升级、责任人变更等后期维护问题,使封装包受制于CA认证机构,后期维护非常不便。

这就是笔者在文章一开始的时候所说的“又爱又恨”的感觉:一方面,EPP封装包是“完美的”,另一方面,EEP封装包又是“不接地气的”。最终的结局可想而知,到现在已经极少有档案部门还在继续采用EEP封装格式了。

 

 

#2:METS封装

下面我们再来看看METS封装。METS封装格式是1996年数字图书馆联盟在美国密歇根大学和康奈尔大学合作发起的MOA2(the Making Of America II)项目基础之上提出的,特点是集成描述、结构、管理元数据的一体式封装。

 

METS封装是一种“模块式”的封装格式:所有元数据统一记录在描述元数据块和管理元数据块中;所有编码的二进制文件内容统一封装在文件列表块中;文件的结构信息记录在结构图块中;采用链接的方式将描述元数据块和管理元数据块中的元数据链接到文件列表块和结构图块中对应文件编码上。如下图所示(以一份党委会议文件为例):

 

 

EEP封装?METS封装?还是ZIP封装?_元数据_03

 

由于METS封装采用独立的模块来描述电子文件的元数据、编码二进制内容和层次关系,模块之间互不影响,相互之间采用“指针”的方式链接。因此,也可称之为“模块式”封装格式。另外,METS封装也没有强制要求对文件内容进行Base64编码,为了管理、利用和维护方便,也可以直接保存电子文件原始格式。另外,METS封装还存在一种“分体式”封装的变种,也就是将电子文件内容以外部文件的形式独立保存,而METS封装包中只封装元数据及指向外部电子文件的链接,这样处理大大降低了封装包的大小,但增加了封装包和文件之间指向关系的维护难度。

 

从上述封装格式的对比可以发现,由于METS封装采用了“指针”的方式实现元数据和文件内容的链接,是一种“松耦合”的封装方式,相对于EEP封装“紧耦合”的方式显然要灵活得多,因而也更加“接地气”。METS封装方法虽然起源于图书馆领域,但其应用已扩展到档案馆、博物馆、文献情报等领域,根据METS官方统计,截止2020年,已经在METS注册登记系统中登记的全球范围内使用METS封装格式的机构已经有几百家。

 

 

#3:ZIP封装

那么,还有没有比METS封装更加灵活方便的封装格式呢?答案是肯定的,那就是ZIP封装。当然采用ZIP压缩包方式叫做“封装”难免有些牵强,可能叫“打包”更加合适一些,也就是将电子文件元数据和内容数据按照一定的结构组织好之后打成ZIP的方式。这是一种“原汁原味”的封装方式。

 

当然,采用ZIP打包并不是说电子文件的元数据和内容数据就不重要了,实际上打包只是一个形式而已,电子文件的元数据和内容数据一个也不能少,而且还得按照一定的结构组织起来。比如GB/T 39362-2020《党政机关电子公文归档规范》中的电子公文归档信息包结构如下:

 

 

EEP封装?METS封装?还是ZIP封装?_封装格式_04

 

组织的过程是省不掉的,打包的操作则很简单。由于ZIP压缩格式是开源的,采用ZIP打包不用担心受制于特定技术或机构的问题。以后的维护和利用就更加方便了,什么时候要进行维护和利用了,只需要解包提取文件元数据和内容,处理完再重新打包即可。

 

最后,我们再来回答文章开头的问题,“为什么曾经那么火爆的EEP封装包现在销声匿迹了呢?”,就是因为它不接地气,把简单的问题复杂化了!并不是只有EEP才是封装包,电子文件的真实性和完整性也不是单单靠封装就能解决的。作为标准肯定需要考虑理论完美性,但更需要考虑实用性和可操作性。