5.2 实体对齐关系识别

5.2 实体对齐关系识别

本体的语义异构问题严重阻碍了本体在信息提取、文本分类、问答系统和机器翻译等领域的广泛应用,已经成为语义Web系统之间互操作和协作的瓶颈。本体对齐技术能够用于解决本体和语义Web的语义异构问题,也是实现知识共享和重用的关键技术[62,63,64,65]。另外,本体对齐是本体共享、本体互操作和本体集成的基础。本体对齐是为了发现两个本体的构成要素之间的语义关系。构成要素可以是概念、属性、关系、实例、规则、谓词、公理和事件等。语义关系包括等价、部分-整体、因果、包含、目的以及用户自定义关系等[62,66]。本体对齐是一项复杂、耗时且易错的任务。

实体对齐是本体对齐、语义计算和计算智能领域中的重要研究问题。其任务是识别文档或网页中表示的实体是否指向现实世界中的相同实体[64,65,67]。实体对齐的主要挑战在于缺乏训练数据和背景知识以及背景知识匹配问题[62]。例如,文本中同名实体可能表示现实世界中的不同实体。另外,很难获得关于两个本体中实体对齐关系的训练数据[68]。背景知识匹配问题是指,如何获取和使用上下文或背景知识来完成实体对齐任务[62]

本节将描述一种基于多视图融合的实体对齐关系识别方法[69]。其目标是识别多种百科网站中词条或页面的对齐关系。该方法包括两种视图:基于信息盒的视图和基于自由文本的视图。一方面,通过提取基于信息盒的词条视图和基于自由文本的词条视图中的共同特征词,来最大化两种视图的共同性。另一方面,遵循互补原则,集成基于信息盒的词条视图的独有词语和基于自由文本的词条视图的独有词语。该方法提供一种有效且便捷的视图构建、视图集成和实体对齐的方法。实验结果表明,其有效性优于基于单视图的实体对齐方法。