5.2.1 问题定义

5.2.1 问题定义

定义(实体对齐):实体对齐任务可以定义为函数f(E1,E2)={〈t1p,t2q>}:

(a)不失一般性,E1和E2分别是两个百科网站中网页或词条的集合。

(b)E1={t11,t12,…,t1m,},t1j是集合E1中描述实体e1j的词条或网页,j=1,2,…,m。E2={t21,t22,…,t2n,},t2j是集合E2中描述实体e2j的词条或网页,j=1,2,…,n。

(c)tij=〈wordij,textij,infoboxij>,infoboxij={〈aij 1,vij 1>,〈aij 2,vij 2>,…,〈aijr,vijr>},tij包含表示实体eij的词语wordij、自由文本textij、以及信息盒infoboxij。属性值对〈aijk,vijk>∈infoboxij表示实体eij属性aijk的属性值是vijk

(d)M是映射关系集合,M={〈t1p,t2q>},其中,p=1,2,...,m,q=1,2,...,n。函数f(t1p)=t2q表示t1p表示的实体e1p等价于t2 p表示的实体e2 p

例如,对于维基百科中的一个词条或网页x,百度百科中的一个词条或网页x,如果x和y描述同一个实体,那么在x和y之间构建一个等价的对齐关系。

可见,实体对齐任务是指识别来自不同百科网站中词条或网页集合之间的实体等价对齐关系。另外,每个词条由三部分构成,包括表示实体的词语或短语、自由文本或非结构化文本以及信息盒组成。信息盒由属性和属性值对构成。例如,百科网站中“中国”词条的信息盒包括如下属性和属性值对“〈首都,北京>”和“〈最长河流,长江>”。

本体对齐也称为本体匹配或本体映射[68]。本体对齐的方法包括元素级对齐和结构级对齐。元素级本体对齐方法根据元素自身特征来识别不同本体中元素之间的关系。结构级本体对齐方法是利用本体元素之间的相邻关系等来识别对齐关系[70,71]。元素级本体对齐方法可以划分为基于字符、基于词法(Morphology)、基于语义和基于属性的对齐方法。

基于字符的本体对齐方法根据实体名称的字符特征,计算表示实体的词语或短语之间的相似度。基于词法的本体对齐方法根据实体的词法特征来计算实体的相似度,通常需要对文本进行词干提取和词形还原。另外,基于语义的本体对齐方法通常借助于词典或知识库,并利用本体要素之间的语义关系来识别本体对齐关系。例如,蒋湛等[72]引入了一种基于特征的自适应策略来解决本体映射问题,该方法利用语言、实例、结构以及概念的属性特征。

结构级本体对齐方法大致分为基于图的对齐方法和基于分类体系的对齐方法。基于图的本体对齐方法利用本体的图表示模型识别本体构成要素之间的对齐关系。基于分类体系的本体对齐方法利用本体的树表示模型来识别对齐关系。

实体对齐方法主要包括基于翻译模型的实体对齐方法和基于图神经网络的实体对齐方法[64,65]。Yang等[73]设计一种协同训练框架学习实体嵌入来解决实体对齐问题。该框架利用TransE学习实体的结构嵌入,利用包含联合注意力机制的伪孪生神经网络(Pseudo-Siamese Network)来集成结构信息和属性信息实现实体对齐。Liu等[74]首先将知识图谱切分为四个子图,包括属性名称、文字属性、数字属性和结构知识。然后,分别设计图神经网络通道来学习实体表示,进而输出实体对齐结果。

另外,实体对齐也称为实体消解或实体映射[68]。李广一等[75]采用多阶段聚类方法来解决问题命名实体识别和消歧任务,该方法使用两轮聚类来发现文档和知识库中实体定义的映射关系。