5.2.3 实验结果与分析

5.2.3 实验结果与分析

实验数据集来自三个中文百科全书。每个数据集均包括100个国家词条、100个明星词条、100个保护动物词条。实体对齐任务是识别这三个集合(D1,D2,D3)之间的实体等价关系或对齐关系。

将本节方法与下面两种方法进行比较:基于自由文本的方法和基于信息盒的方法。在这两种方法中,首先构建表示词条内自由文本或信息盒的特征向量,然后使用Birch聚类方法对词条进行聚类。设m和n分别是基于自由文本的方法和基于信息盒的方法的特征向量的维度。本节方法中特征向量的维数为m+n-p,其中p是集合U3中的特征词数量,如图5.4所示。

表5.1给出了基于词条摘要的数据集D2和D3的实体对齐关系识别的实验结果。其中,基于自由文本的方法和本节方法利用了从词条摘要中提取的关键词。从表5.1可以看出,本节方法的实验结果优于基于自由文本的方法M1和基于信息盒的方法M2的实验结果。表5.2给出了基于词条全文的数据集D2和D3的实体对齐关系识别的实验结果。其中,基于自由文本的方法和本节方法利用了从词条所有段落中提取的关键词。

表5.1 基于词条摘要的在数据集D2和D3上的识别性能

表5.2 基于词条全文的在数据集D2和D3上的识别性能

图5.5给出了采用Birch聚类方法在数据集D1,D2和D3的实体对齐关系识别的实验结果。图5.6给出了采用K-means聚类方法在数据集D1,D2和D3的实体对齐关系识别的实验结果。从图5.5和图5.6可以看出,本节方法的实验结果优于基于自由文本的方法M1和基于信息盒的方法M2的实验结果。

图5.5 基于Birch聚类的实体对齐关系识别实验结果

图5.5 基于Brich聚类的实体对齐关系识别实验结果(续)

性能能够得到提升的主要原因在于以下三个方面。第一,本节方法构建了词条或网页的两种视图,可融合基于自由文本的视图和基于信息盒的视图来描述实体。第二,遵循共识原则,突出了自由文本视图和信息盒视图的共同特征词对实体对齐关系的辨别能力。第三,遵循互补原则,可计算自由文本视图和信息盒视图的独有特征词的不同辨别能力。

图5.6 基于K-means聚类的实体对齐关系识别实验结果