4.2.2 对象数据分散存储,元数据集中管理

4.2.2 对象数据分散存储,元数据集中管理

因为对象数据和元数据都集中存储的模式有着这样那样的不足之处,国外很多公共数字文化资源整合项目都采用对象数据分散存储、元数据集中管理的模式整合数字文化资源。这种资源存储模式是采用数据资源物理上分散、逻辑上集中的分布式存储方式。这种模式本身不建立对象数据资源库,而是在不改变已有信息系统的数据组织结构和检索方法的条件下,通过元数据互操作等方式实现对异构的多数据源的统一访问[34],其大致流程是:用户提出一个查询请求,该模式构建的查询机制能够同时在多个数据库进行查询,然后将各个数据库返回的记录经过清洗、去重、归并等操作后,在统一的输出界面显示检索结果,实现无缝查询输出,用户点击查询结果就可以在资源实际的存储服务器上获得资源。国外公共数字文化资源整合项目采用这种模式进行资源存储的项目很多,下面列举Europeana和德国图书馆、档案馆和博物馆门户项目对该种资源存储模式进行说明。

Europeana是欧盟European Union的文化门户网站,于2008年11月上线。这是欧盟委员会(European Commission)推动数字化的自然与文化对象一站式网络获取十年努力的结晶,自2010年开始全面运行。前文已经指出,截至2017年4月23日,Europeana为用户提供的资源记录数量超过了5 000万条,藏品类型主要包括四大类:文字(图书、报纸、信件、日记以及档案材料),图像(画作、图纸、地图、照片以及博物馆藏品图片),音频(音乐、磁带、光盘以及无线电广播),视频(电影、新闻短片和电视广播)[35]。面对如此众多的来源机构和如此庞大的资源数量,Europeana并不收集资源内容本身,而是采集相关元数据、草图图像及参与机构Web网站的链接。Europeana机构成员负责增加由Europeana公开的文化资料数量,它们将多个文化资源收藏机构按照馆种类型以及国别打包,再一起提供给Europeana。目前,Europeana首先采纳由自己机构成员所提供的文化资源内容,其次才考虑是否收藏其他机构提供的内容。它的目标是到2015年让所有EU成员国都成为国家级的机构成员[36]

作为一个建立在海牙的相对较小的只有约40个员工的组织,Europeana与所有这些文化机构工作直接联系是不可能的。因此,聚合体(aggregator)就成为了文化机构与Europeana之间的桥梁。在Europeana语境下,一个聚合体是指一个从一组数据的提供者收集元数据并将其传递给Europeana的组织,聚合体也给数据提供者管理、运行以及培训方面的支持。它们可以收集国家、专题或者项目等不同层次的数据,对其进行协调之后传递给Europeana。聚合体的重要性还表现在,它们与文化资源来源机构有着共同的工作背景,因此,它们之间可以很好地理解对方的意图。这种聚合体模式让Europeana得以通过屈指可数的渠道获得来自几千个文化机构提供的大量数据,Europeana数字文化资源数据来源见图4.4。除了从国家聚合倡议(National Aggregation Initiatives)获得直接的数据贡献之外,Europeana还可以获得泛欧聚合体(pan-European Aggregators)贡献的数据,比如欧盟资助的项目。这些项目给Europeana提供了大量的数据,它们创造聚合、提高数据质量、解决语言问题以及开发性的技术[37]

图4.4 Europeana文化资源数据来源

数据来源:Europeana Professional.Europeana partners[EB/OL].[2017-03-23].http://pro.europeana.eu/about/partners.

德国图书馆、档案馆和博物馆门户(Portal zu Bibliotheken Archiven Museen,BAM-Portal)开始于2001年,受到德国研究基金会(German Research Foundation)的资助。BAM是图书馆、档案馆和博物馆联合的门户网站,旨在为德国建立一个数字记忆机构的获取站点,并开展和其他国家文化遗产的合作项目。自2007年开始,一个图书馆、档案馆和博物馆联盟管理(hosts)BAM门户,一个图书馆服务中心(Bibliotheks service-Zentrum Baden-Württemberg)负责BAM门户的日常运行和维护。早在2007年,BAM数字记录已经超过了4千万,这些资源来自于德国大型的大学图书馆、16个博物馆和博物馆网络、大型的档案馆。BAM门户并不收集这些机构的对象数据,而是给参与机构提供一个联合的跨机构平台,该平台可以保存数字目录。因此,在BAM服务器上可以采集、存储、索引和检索参与机构的元数据,而媒体内容——图像、文本、音频、视频等数字材料——存储在参与机构的在线数据库,这些参与机构完全控制并对数字材料负责,它们利用BAM,仅仅是将BAM作为一个网关(gateway),通过贡献大量吸引用户流量的数字馆藏,它们也将BAM作为一种增加自身网络可见性的方式[38]

BAM门户是一个简单的Google搜索网络或可扩展搜索表单,允许检索不同机构不同结构的数字馆藏,检索结构连接到了原始目录,BAM门户只采集保存在参与机构本地在线数据库里的对象的元数据,见图4.5。资源列表(lists)在专家信息系统里面进行反馈,在这里,数字对象以合适的展示方式进行呈现。这个流程主要有以下优势:一方面,专家信息系统负责诸如手稿、三维对象、书籍等不同类型的资料分散呈现(separate presentation)模型;另一方面,BAM门户不被许多或许还是令人费解的对象占用。档案馆尤其希望根据对象来源来呈现它们的资料,即具有明确的历史背景下的单个记录的来源。档案工作者不在乎相关性——通过主题来组织资料,相反,他们认为利用相关性或者主题标目进行索引会隐藏记录所包括的背景,从而使人误解[39]

图4.5 BAM门户信息层次

数据来源:Kirchhoff T,Schweibenz W,Sieglerschmidt J.Archives,lib raries,museums and the spell of ubiquitous knowledge[J].Archival Science,2008,8(4):251-266.

对象数据分散存储、元数据集中管理的资源存储模式需要运用一系列的信息技术来实现资源的一站式跨库检索。BAM门户的技术是基于Apache-Lucene全文搜索引擎库(full text search engine library)以及其他开源组件(open-source components),图4.6展示了BAM的工作流程。在该图中,标准查询语言(standard query language,SQL)数据库包含了关于记录提供者、之前安装的用于索引的设置以及程序集或管路(assembly or pipeline)布局(configuration)等方面的数据。该数据或者通过管理员直接手工传输和处理,或者自动上传和处理。虽然初始数据是管理员手工集成的,以让每一个数据转换为DC元数据集兼容的数据文件,但数据采集的程序将会变得越来越自动化。一些平台通过OAI-PMH提供元数据采割接口,但BAM的绝大部分内容提供者并不具备通过OAI-PMH提供元数据采割接口的先决条件。在这种情况下,BAM构建了Java内容资源库(Java content repository,JCR),这些数据就被以XML文件格式存储在input repository以及BAM repository里面。管路索引器(pipeline indexer)用可扩展样式表语言转换(extensible stylesheet language transformation,XSLT),将图书馆、博物馆以及档案馆传入的数据转化为内部专有的XML格式。这是一种灵活的将不同格式转化为一种基准格式的手段。数据存储在BAM资源库里面,并通过Lucene产生的总索引(master index)进行索引,总索引被镜像(mirrored)为一个或者多个从属服务器(slave servers),这就确保了能够在需要的情况下进行性能的可扩展性[40]

对象数据分散存储、元数据集中管理的资源存储模式实现了异质异构分布式信息资源的集中展示和获取,各个合作文化机构只需要提供能够对其数据进行访问的接口[41],其主要工作是对元数据进行加工以及互操作等相关处理,与对象数据与元数据都集中存储的模式相比,这种模式的工作量相对较少,对中心服务器的要求较低。但是,这种存储模式需要将用户的检索请求转换为各个文化机构系统的检索方式,然后再实时地将从各个系统返回的检索结果进行处理之后呈现给用户,这在一定程度上会造成检索效率的降低。

图4.6 BAM门户的技术架构

资料来源:Kirchhoff T,Schweibenz W,Sieglerschmidt J.Archives,libraries,museums and the spell of ubiquitous knowledge[J].Archival Science,2008,8(4):251-266.