5.2.2 实体对齐

5.2.2 实体对齐

基于多视图融合的实体对齐算法的框架如图5.3所示。该算法包括三个阶段。第一,构建基于自由文本的视图以及基于信息盒的视图;第二,构建多视图融合模型;第三,基于Birch聚类方法识别实体的等价对齐关系。

图5.3 基于多视图融合的实体对齐算法的框架图

对于百科全书网站中的每个词条或网页,首先分别从词条网页中的自由文本和信息盒提取特征词。词条中自由文本的特征词包含停用词之外的词语。词条中信息盒的特征词包括实体的属性和属性值中的词语。

设F1是两个百科网站词条集合E1和E2中自由文本的特征词,F2是两个百科网站词条集合E1和E2中信息盒的特征词。对于每个词条,基于特征集F1构建特征向量vt;同时,基于特征集F2构建特征向量vb。其中,利用词频文档逆频率TF-IDF(Term Frequency-Inverse Document Frequency)模型计算词特征。另外,特征向量vt和特征向量vb可以看作词条或网页的自由文本视图和信息盒视图。

构建多视图融合模型过程具体如下。每个词条或网页的基于自由文本的视图可视为网页所描述实体的上下文描述视图。相对应地,基于信息盒的视图可视作实体的知识视图。

事实上,基于自由文本的视图与基于信息盒的视图具有相同类型的特征空间。在这里,特征空间由与实体相关的词语构成。另外,同时出现在词条的自由文本和信息盒中的词语与实体,比网页中其他词语具有更强的关联性。因此,通过突出网页中基于自由文本视图和基于信息盒视图的共同特征词,可最大化两种视图的实体的共同特征[76]

另一方面,只出现在网页的自由文本中的特征词与只出现在网页的信息框中的特征词,对于反映实体的属性或性质是必不可少的。特别地,这两种特征词与实体具有不同的关联强度。因此,构建了一个多视图融合模型,通过集成基于自由文本视图的独有特征词和基于信息盒视图的独有特征词来达到互补目的[76]。在此基础上,构建了三个特征词集合U1、U2、U3,如公式(5.1)所示:

进一步,为每个词条tij构建了多视图融合模型vij,如公式(5.2)和图5.4所示。其中,α,β,γ,δ是参数,vij1和vij2是基于特征词集合U1和U3构建的词条中自由文本的特征向量,vij3和vij4是基于特征词集合U3和U2构建的词条中信息盒的特征向量。事实上,vt=(vij1,vij2),vb=(vij3,vij4)。

图5.4 每个网页后词条的多视图融合模型图

实体对齐关系识别方法具体如下。根据E1和E3中词条或网页的多视图融合模型,使用Birch聚类算法对词条进行聚类。如果同一类簇中包含词条t1p和t2q,则可以在这两个词条之间构建对齐关系,M={〈t1p,t2q>}={〈t1p,t2q>}。也就是,该公式表示,t1p和t2q所描述的两个实体e1p和e2q是等价的。