4.3.2 元数据互操作技术

4.3.2 元数据互操作技术

简单地说,元数据互操作就是与不同元数据格式间的信息共享、转换和跨系统检索等[46]。根据笔者的调查,虽然国际上诸多公共数字文化资源整合项目都建立了统一的元数据标准,采用的元数据标准都在DC元数据标准的基础上进行了扩展,但有些项目整合的资源之前已经有了自身的元数据描述标准,而该标准并不是DC元数据。因此,为了缓解数字文化资源元数据描述特殊性和一般性矛盾,推动元数据多元化的协调发展,国际上不少公共数字文化资源整合项目建立了元数据互操作方式,这些方式主要包括复用与集成、应用规范、元数据映射、互操作协议、API等。通过在元数据互操作方面做出的努力,构建了一站式检索平台,满足了社会公众一站式获取数字文化资源的需求。

(1)应用规范

元数据应用规范(application profiles)是一种规范的元数据方案,是元数据标准规范的应用形式,它允许应用来自多个元数据标准中的数据元素,并对“混合型”元数据方案进行内容以及形式的规范,确保具有类似的基本结构和通用元素[47]

欧洲Michael Culture项目以DC元数据格式作为数字资源描述与保存的基本格式,在此基础上组合了Michael项目自建元数据、RSLP资源集合描述等元数据格式,建立了专门的Michael-EU都柏林核心应用规范(MICHAEL-EU Dublin Core Application Profile,MICHAEL-EU DCAP)。MICHAEL-EU DCAP由28个元素构成,其中11个元素来自DC,9个元素来自Michael项目,6个元素来自DC Terms,2个元素来自RSLP,各元素与源元数据格式的对应关系如表4.4所示[48]。该应用规范的建立能够确保Michael Culture项目的元数据格式具有类似的基本结构与共同元素,并具有不同的深度和细节,以满足不同的需要。

表4.4  MICHAEL-EU DCAP元数据与源元数据的对应关系

续表

数据来源:MICHAEL-EU Dublin Core Application Profile[EB/OL].[2017-01-05].http://www.ukoln.ac.uk/metadata/michael/michael-eu/dcap/# Digital Collectiondctermsextent.

美国数字公共图书馆项目(DPLA)的元数据应用规范(Metadata Application Profile,MAP)是DPLA中的元数据如何被结构化和验证的基础,也是元数据存储、序列化以及通过JSON-LD中的API获得元数据的指南。MAP以Europeana数据模型(Europeana data model,EDM)为基础,也集成了美国文化遗产机构聚集元数据的经验以及具体需求。与EDM相比,该应用规范除了拥有EDM特定的类与属性之外,还重用了以下元数据格式的定义:resource description framework(RDF)和RDF schema(RDFS)[49]、OAI object reuse and exchange(ORE)[50]、DC元素的命名空间(DC)[51]、条目(DCTERMS)[52]和类型(DCMITYPE)[53]、基本地理(WGS84纬度/经度)词汇[The Basic Geo(WGS84 lat/long)Vocabulary][54]。2013年2月,MAP发布了3.0版。2014年7月,DPLA发布了DPLA元数据应用规范3.1版(Metadata Application Profile,Version 3.1)[55]。新版本能够更好地让该数据模型与在DPLA的数据存储库聚集元数据的实际情况相一致,图4.7为DPLA的领域模型(domain model)[56]

(2)元数据映射

元数据映射,是从一个元数据格式的元素、语法和语义到另一种元数据格式的元素、语法和语义的映射[57],通过一对一、一对多、多对一及多对多等多种方式映射,解决语义互换及跨库检索问题。与其他元数据互操作方式相比,元数据映射应用于项目创建初始阶段,元数据互操作的范围大大扩大,因此被公共数字文化资源整合项目广泛采用。根据笔者的调查,几乎所有的公共数字文化资源整合项目均结合实际需求,采用了元数据映射方式解决元数据的互操作问题。如Europeana将自建的元数据标准与图书馆、档案馆、美术馆和博物馆等不同类型文化机构常用的元数据标准如DC、MARC、CIDOC CRM(CIDOC conceptual reference model)、EAD(encoded archival description)和LIDO等均建立了映射关系[58],以与来自不同文化机构的原始文献建立关系,并满足数字文化资源采集、检索以及使用等需求。

图4.7 DPLA的领域模型

数据来源:Digital Public Library of America.Metadata Application Profile,Version3.1[EB/OL].[2016-12-26].http://dp.la/info/wp-content/uploads/2013/04/DPLA-MAP-V3.1-2.pdf.

世界数字图书馆在DC元数据的基础上自建了元数据标准,该元数据标准与MARC21、DC等元数据标准建立了映射关系[59],如表4.5所示。这可以确保在合作伙伴的数字资源已经存在其他元数据格式的情况下,这些元数据格式可以映射到世界图书馆项目自建的元数据标准。

表4.5 WDL元数据与其他元数据的对应关系

续表

续表

续表

续表

续表

数据来源:World Digital Library Project Site.World Digital Library Metadata with Crosswalks and Instructions[EB/OL].[2017-01-05].http://project.wdl.org/arab_peninsula/workshop2012/en/doha_workshop_2012_metadata_crosswalks_en.pdf.

美国公共数字图书馆(DPLA)在EDM基础上建立的新的数据模型DPLAMAP,几乎可以与任何元数据标准建立连接。目前,DPLAMAP已经与DC、MODS、MARC XML、METS-wrapped MODS以及一些本地元数据规范建立了映射关系,并且能与VRA Core(visual resources association core)、CDWA(categories for the description of works of art)以及CIDOC等其他元数据标准和应用规范相兼容。此外,如果一个元数据标准已与EDM建立了映射关系,那么它也能映射到DPLAMAP[60]

元数据映射转换比较准确,转换效率也比较高,是一种较为有效的元数据互操作方式,但也存在不足之处:一是元素之间难免存在完全映射带来的信息丢失情况,二是这种映射方法在涉及的元数据格式数量不断增多的时候,映射的工作量也将大大增加[61],这会导致应用效率的明显下降。因此,元数据映射只能作为元数据互操作的一种解决方案,而无法彻底解决元数据互操作问题。

(3)复用与集成

公共数字文化资源整合项目通常整合的数字资源已采用了不同的元数据描述标准进行描述,已经产生了大量的元数据记录,元数据映射等互操作方式难以有效满足已赋值的元数据互操作需求,此时,就需要借助复用与集成等元数据互操作方式,实现各参与文化机构元数据记录间的整合。复用与集成方式遵循元数据组织模块化原则,一条元数据记录的各个组成部分可以被当做不同的独立单元,按需要将不同元数据源的这些单元组合在一起,或重新应用这些单元来产生新的记录[62]

根据笔者的调查,国外公共数字文化资源整合项目多以RDF/XML实现元数据的复用与集成。RDF是W3C提出的基于XML的用于描述网络资源的标准,它提出了一个简单的“资源-属性-值”三元组模型来表示任意类型的数据。RDF通过这个三元组模型来提供元数据的基本使用模式,并通过XML命名空间(XML namespace)引用已有的元数据标准中的元素定义,从而直接使用合适的元素作为属性名来描述对应的资源。因此,只要有一个系统能解析RDF的标准描述框架,就能解析相应的元数据格式。

Michael Culture项目采用的SKOS(simple knowledge organization system)核心词汇应用了RDF模型。RDF为描述对象及其属性、相互关系及分类(类目)提供了一个简单的数据形式。使用RDF能使数据通过语义网络应用程序与其他RDF数据连接和(或)合并。在实践中,这意味着数据源能够以分散的方式分布在网络中,但仍能被应用程序有效地组合并集成[63]。因为有不同目的,故Europeana的数据模型(Europeana data model,EDM)采用了不同的元数据标准,如将DC用于描述,将SKOS用于概念词汇的选择与表述,将OAI-ORE(open archives initiative object reuse and exchange)用于不同数字对象及其衍生形式组织管理,见图4.8。应用RDF可以灵活调用上述元数据标准进行集成与复用,而且可以对元数据进行保存并支持互操作[64]。不仅如此,为了方便在语义环境下进行,Europeana的元数据可以通过关联数据得到有效揭示,提高资源可用性,Europeana采用4Store或OpenLink Virtuoso等RDF存储方式对其数字资源进行存储[65]

图4.8 EDM的类层次结构

数据来源:Europeana Professional.Definition of the Europeana Data Model elements[EB/OL].[2017-01-06].http://pro.europeana.eu/documents/866205/13001/EDM_v5.2.2.pdf.

(4)协议互操作

公共数字文化资源整合项目几乎是由多个不同的文化机构共同开展的,整合的数字文化资源多为分布式存储,资源处于异质异构状态。在这种情况下,实现跨库检索面临的一个主要问题是系统无法以统一的格式显示检索结果,而且分布式独立元数据资源还存在另一个棘手问题,那就是每一个元数据的提供者都可能各自使用不同的元数据标准来建立数据记录[66]。解决这种问题的方案是:定义一个公认的、共同遵循的检索协议进行元数据互操作。此协议应该满足以下三个基本条件:①本身具备互操作性;②允许用户在协议范围内建立满足自己特殊需要的元数据格式;③具有可操作性,简单、灵活且易于遵循[67]

目前世界上支持元数据互操作的协议不少,如OAI-PMH、Z39.50、ZING(SRU/SRW)等。Europeana同时支持Z39.50、SRU、OAI-PMH三种协议[68]。日本国立国会图书馆根据SWR/SRU、Open-Search等协议,能够实现对122个数据库进行跨库检索[69]

根据笔者调查,国外公共数字文化资源整合项目使用OAIPMH协议的频率最高,而且功能完善。OAI-PMH协议是一个在分布式网络化环境中获取元数据信息的标准协议,它通过定义一个标准化的接口,使网络服务器能够将存储其中的元数据有选择地提供给需要这些元数据的外部应用程序或其他服务器[70]。通过OAIPMH协议进行元数据收割的整个过程,主要由数据提供者、服务提供者、元数据记录、数据存储器等组成部分完成[71]

(5)API

图书馆、博物馆、档案馆等公共文化机构为了实现远程和平台调用自身资源,还可以通过提供本机构的API(application program interface)来实现元数据的互操作。API即应用程序接口,其作用在于将系统原有的数据管理与更新、登录方式、数据的浏览与检索等操作及参数按照某种协议进行封装,外部程序可以按照封装后的调用方式通过API实现与系统的数据交互。

日本国立国会图书馆为了满足其他系统对NDL Search资源和服务的调用,提供了遵循Z39.50协议的API[72]。外部机构在安装NDL Search的API后,可以将国立国会图书馆的数据导入并与本机构的数据进行整合,从而提供更高质量的服务。Michael Culture的发布模块也包括一个基于REST标准技术的API,使用简单的HTTP请求和XML响应来搜寻和检索记录[73]。用户可以通过以下三个简要的步骤使用DPLA提供的API:第一,向DPLA申请一个API秘钥;第二,启动浏览器并在地址栏中输入请求;第三,读取响应[74]。为了能够让其他机构或个人采用自己的应用程序搜寻和检索Europeana数据库的内容,Europeana目前提供两个供利用的API:一个是REST-API,这个API适用于动态搜寻与检索该网站的数据,其提供的数据与Europeana入口(Europeana Portal)提供给终端用户的数据是一样的,在很多时候,该入口可以看做一个高级API的实现方式;另一个API是关联开放数据(linked open data),其更具实验性质,通过SPARQL检索语言,支持完整数据集的下载以及高级语义搜索与检索,见表4.6。目前,开放关联数据下载(linked open data downloads)和SPARQL端点(SPARQL-endpoint)包括的数据只是Europeana数据集的一个子集,该子集(2 000万条记录)大约是所有数据集(3 100万条记录)的2/3。但该子集的数量会不断增加,关联开放数据服务会不断更新[75]

表4.6 Europeana的API及用途

数据来源:Europeana labs.APIs[EB/OL].[2016-12-23].http://labs.europeana.eu/api/.

利用API开展元数据互操作的优势在于:API是对操作及操作参数和功能调用的封装,与内容无关;而服务提供方通过调用API进行解析和链接而获取资源与服务,不必再根据内容的变化而不停维护资源链接,从而大大降低了工作负担[76]

除了以上常用的元数据互操作方式外,有的项目还应用了一些其他互操作方式,比如注册(如Europeana的元数据注册系统europeana metadata registry,EuMDR)、衍生(Michael Culture项目的数据模型就是由RSLP资源描述框架和DC元数据资源描述协议衍生而来)等。值得指出的是,目前国外公共数字文化资源整合项目所采用的元数据互操作方式不仅仅局限于某一种方式,而是综合采用了元数据映射、应用规范、复用与集成、协议、API等多种元数据互操作方式,从而有效地实现了一站式跨库检索功能。