6.4.2 元数据标准构建及互操作
我国文化共享工程、广州记忆等公共数字文化资源整合项目的元数据描述都非常简单,几乎只有名称以及对资源简要说明的字段,这不利于对数字文化资源的检索、利用以及长期保存。因此,有必要建立一套完整的元数据描述标准,并建立与MARC、EAD等其他常用元数据标准的互操作机制。
6.4.2.1 元数据标准的构建
公共数字文化资源整合中的数字对象需要采用相关的元数据标准进行描述。目前世界范围内已经存在诸多元数据标准,这些元数据是由不同专业领域的人士针对不同的领域研究出来的,其应用的范围和目的不同,如MARC主要用于描述图书馆书目数据,FGDC主要用于描述地理空间资源,EAD主要用于描述档案,VAR Core主要用于描述可视化资源,CDWA主要用于描述艺术作品,等等。但这些元数据不适合对网络资源的描述,有学者调查发现,CADAL、数字图书馆推广工程、Open Library、Google Book Search、欧洲数字图书馆、HaithTrust、CDL和美国记忆等国内外知名的公共数字文化资源整合项目全部采用了基于DC的元数据著录方式,且均根据各自项目建设需求重新设计和构建了新的元数据标准[46]。
DC元数据是为描述网络资料、支持网络检索而建立的元数据规范。随着国际合作逐步完善,DC元数据标准在网络资源描述方面得到广泛承认和应用,已经得到ISO15836、NISOZ3985、RFC5013等标准的官方认可[47],是目前国际上最具影响力的元数据格式。DC元数据的维护机构为DCMI(Dublin Core Metadata Initiative)。DC元数据集由15个基本元素组成,见表6.2。
表6.2 DC元数据元素描述

续表

数据来源:孙广芝,邢立强,张保玉.数字出版元数据基础[M].北京:电子工业出版社,2014:210-211.
DC作为一种成熟规范的网络资源描述方式,具有可选择性、可修饰性、可重复性和可扩展性等优点,数据结构简单,可读性强,著录方便,生成记录简单快速[48],并可与MARC等元数据格式进行映射与互操作,能够在一定程度上保证原始文献描述成果的复用,降低整合主体在描述数字对象方面的工作负担。借鉴国际上的通常做法,结合我国公共数字文化资源整合实际需求,参照宋琳琳等人构建的大型文献数字化项目的元数据标准[49],笔者也在DC元数据的基础上进行扩展,构建了我国公共数字文化资源的元数据描述标准。笔者构建的公共数字文化资源元数据核心元素集包括19个元素,如表6.3所示。
表6.3 公共数字文化资源元数据核心元素集

续表

续表

本核心元数据标准的特点为:第一,增加“档号”元素。档号是用来反映和固定全宗内案卷及案卷内文件的排列顺序的一组符号,文书档案的档号是文书档案实体管理编号的总称,包括全宗号、案卷号、案卷目录号、件号和页(张)号,档号具有唯一性、合理性、稳定性等特点[50],档号编制对档案工作的开展具有非常重要的意义。我国公共数字文化资源整合项目需要整合很多档案资源,增加“档号”元素可以更好地体现档案资源分类体系的特性,也可以更方便地获取档案资源。国家开放档案信息资源共享利用系统——中国档案(China Archives)就采用了“当号”这一元素。
第二,细分“责任者”。细分为“出版机构”“创建者”“典藏机构”“其他责任者”。公共数字文化资源整合项目需要整合很多来自不同文化机构的文化资源,为了明确数字资源的所属机构,就用“典藏机构”来描述;另外,改变了“出版机构”的描述对象,“出版机构”在这里用来描述数字对象的创造机构,这是因为对于数字化资源来说,数字资源的创造机构才是其出版机构。如果是典藏机构自己将馆藏资源数字化,那么“典藏机构”与“出版机构”是一个机构。
第三,将原来DC的“日期”细化为“原始日期”和“数字化日期”。跟原来的DC的“日期”相比,新增了“原始日期”。对于数字化资源来说,存在“原始日期”和“数字化日期”,不同日期之间存在着紧密的联系,比如,原始文献的版权日期可以限制数字资源的可用日期。
第四,增加“数字化详细说明”元素。在数字化加工过程中会使用各种仪器设备、软件系统、生产制造商以及型号等,这些信息通过“数字化详细说明”进行描述。
6.4.2.2 元数据标准映射
我国公共数字文化资源整合的资源类型多样,来源机构多样,描述元数据标准也不同,而且很多数字文化资源是通过数字化转化而来,存在物理实体。因此,很多文化资源已经存在元数据描述所产生的格式化数据。为了实现元数据的开放共享和交流整合,整合主体可以根据统一的数字文化资源核心元数据标准,采取两种方法创建交流共享的本地元数据集。一种方法是按照统一的元数据核心标准创建和改造本地元数据集,形成本地原生的数字文化资源核心元数据;另一种方式是继续采用原有的元数据标准,通过元数据的映射,形成交流整合用的共享元数据集合[51]。
第一种方法需要整合主体按照统一的数字文化资源核心元数据标准、元数据著录规则、元数据的扩展规则以及元数据应用纲要,创建本地数字文化资源的元数据集和应用。如果核心元数据标准无法满足本地资源的描述、揭示、管理、控制和保存等需要,可以结合其他元数据标准,按照扩展规则对核心元数据进行扩展。为了建立共享元数据生成机制和析出机制,要在本地元数据集创建和保存的基础上,根据元数据共享的要求,对元数据核心元素集进行抽取和析出,生成可以共享的元数据集,用于交换和共享。
第二种方法是整合主体继续采用原有的本地元数据标准方案、标码格式、标记方法等,保证元数据的原有功能和应用,以满足本地业务运行和资源管理的需要。为了创建和形成开放环境下的交流整合用的共享元数据集,需要进行元数据语义和格式上的相互映射转换。目前世界上已经存在诸多转换程序,供常见的元数据标准之间的相互映射,如DC与MARC、DC与EAD、DC与GILS、GILS与MARC等。通过建立元数据映射,满足一种元数据标准的数据或者查询要求,可以自动转换为满足另一种元数据标准的数据或查询要求,从而从语义角度提供元数据的互操作并实现跨库检索。但是,当参与映射的元数据标准增多时,则需要增加大量的工作量去建立它们之间的两两映射关系,因此映射方法进一步发展为选择一种元数据标准作为映射的中心,其他的标准都向这一种中心元数据标准映射,形成星形映射,从而降低复杂度。参与映射的元数据标准越多,这种方法的优点就越明显[52]。公共数字文化资源整合项目整合的资源类型多样,采用的元数据标准也很多,因此,可以采用星形映射方法进行元数据标准映射,使其他元数据标准向建立的统一的核心元数据标准映射,如图6.7所示。

图6.7 其他元数据标准向数字文化资源核心元数据标准映射示意图