7.1.2 公共数字文化资源整合的一般思路
就元数据本身而言,各类元数据标准所包含的字段均具有特定的语义信息[20]。公共数字文化资源整合则需要首先将不同元数据标准中具有相同语义信息的字段进行对应,从而将不同来源的元数据整合起来[21]。针对公共数字文化资源整合这一课题,现有研究方法所采用的主要技术路线,均需要先将不同来源的元数据适配至特定的、标准化的元数据格式,进而基于此元数据格式进行整合[22][23]。在所有元数据标准协议中,OAI-PMH协议可以被视为应用最为广泛的一种协议[24]。该协议要求采用特定映射方式,将来源、格式各不相同的元数据映射到统一格式下。实际中,通常采用都柏林核心元数据集(the Dublin core,DC)作为映射后元数据的描述方式。
在统一了元数据描述标准后,便开始对不同来源的元数据进行整合。此时的元数据中存在相当一部分冗余信息。例如,不同图书馆之间很可能拥有一部分相重叠的馆藏资源,而这些馆藏对应的元数据必定是重复的。针对此问题,需要对元数据进行统一描述,进而将每个元数据转换为一个实体,实体之间相同与否的判断则通过该“统一描述框架”所定义的具体字段进行。例如,针对图书,可设置图书的ISBN号码作为实体的索引,具有相同ISBN号码的实体归为同一个实体,进而利用特定策略对这些相同的实体进行整合。
上述数据描述和整合过程在数字图书馆之间的资源整合问题中也被经常提及。例如,欧石燕提出了一种面向关联数据的语义图书馆资源描述与组织框架,该框架可实现“图书、情报与档案学”领域的数字资源整合[25]。此框架设计了元数据层、本体层、关联数据层和应用层四个层次。元数据层对不同来源的元数据进行汇总;本体层中对不同元数据规范下的语义信息进行整合和互操作,将不同元数据标准映射至具有统一语义字段的RDF[26]格式下;关联数据层通过对RDF中特定字段的整合,关联相同或相似资源,从而获得一致性更高的数据;应用层则面向用户和应用场景,提供多种多样的检索方式。
综合上述分析,公共数字文化资源整合平台的一般架构可用图7.1概括。此处,我们将图7.1所示架构视为一种“面向数据”的架构。它以各机构元数据格式的统一为实现数据层面资源整合的前提。整合过程需要各机构提供所有元数据标准和元数据,在此基础上进行数据综合,并向用户提供统一的服务。

图7.1 “面向数据”的公共数字文化资源整合平台一般架构