5.1.3 实验结果与分析

5.1.3 实验结果与分析

选用准确率和召回率作为实验结果的评价方法。首先定义如下参数:

Nks:由上下位关系抽取系统和知识工程师同时提取到的领域概念上下位关系个数;

Nk:仅由知识工程师提取的领域概念上下位关系个数;

Ns:仅由上下位关系抽取系统提取的领域概念上下位关系个数;

准确率和召回率分别定义为:Precision=Nks/Ns,Recall=Nks/Nk

(1)种子概念对驱动的上下位关系提取方法的实验结果分析。

测试的语料为《中国大百科全书考古卷》。提取了13759组上下位关系概念对。对语料按照大小平均分为十组,从每组语料提取的结果中随机抽取了一百组上下位关系概念对进行评估,平均准确率为94.96%,召回率为49.39%。能够达到这一正确率的主要原因是:①从并列关系语境提取的多个领域概念往往具有相同的上位概念,或者它们通常处于概念体系中相同或相近的层数。②通过学习种子上下位关系概念对的边界信息或边界特征来验证候选领域概念。

上下位关系提取错误的原因主要包括两个方面。第一,句子表达的上下位关系层次超越了已知知识表达的上下位关系层次。学习到的上下位关系与已知的上下位关系,在概念体系上发生歧义。例如,某两个上下位关系应该处于概念体系的相同层数,但是上下位关系学习算法输出不同层数。

形式上,假设句子表达了C1,C2,…,Ck之间的并列关系,它们具有同一上位概念C。而已知知识为:IS-A(Ci,D),则可以学习到的新知识:IS-A(C1,D)∧…IS-A(Ci-1,D)∧IS-A(Ci+1,D)∧…∧IS-A(Ck,D)。但是,可能存在IS-A(Cj,D)不成立,而IS-A(D,C)成立。

产生错误的第二个原因是,句子隐含地包含了多个并列关系。有些句子可能包含多个并列关系。对于显式的多个并列关系包含的情形,可以通过切分小句的方法来区分为单个并列关系。而对于隐含的多个并列关系包含的情形,则没有处理。

对于句子“西藏地区除较早的细石器传统外,还在藏南林芝、墨脱等地发现以磨制石器和陶器为代表的晚期遗存。”,已知知识为“IS-A(陶器,文化遗物)”,学习到的新知识为“IS-A(南林芝,文化遗物)∧IS-A(墨脱等地发现以磨制石器,文化遗物)”。错误的原因在于,没有把“还在藏南林芝、墨脱等地”和“以磨制石器和陶器为代表的晚期遗存”两个并列关系区分开来。

(2)语境驱动的上下位关系提取方法的实验结果分析。

上下位关系抽取语境或抽取模式根据表达形式或句法特征可以分为两种类型:

单句式语境。单句式语境是指以单句形式表达的上下位关系语境。

例如,“〈?C2>〈就是|也是|是|为|作为|成为|又是>一〈!量词>〈?C1>,提取的知识为:IS-A(C2,C1)。

短语式语境。短语式语境是指以短语形式表达的上下位关系语境。

例如,〈?C1>,其中〈?C2>〈!比例前接动词>〈!部分修饰词>〈!比例标识词>”,提取的知识为:IS-A(C2,C1)。

上下位关系抽取语境根据提取的知识可以分为三种类型:

(a)原子式语境。原子式语境提取的知识为一组具有上下位关系的概念对。提取的知识类型为:IS-A(C2,C1)。例如,从句子“三星堆遗址是一座由众多古文化遗存分布点所组成的一个庞大的遗址群”,抽取上下位关系“IS-A(三星堆遗址,遗址群)”。

(b)组合式语境。组合式语境提取两组以上具有上下位关系的概念对,它们的上位概念是相同的。提取的知识类型为:IS-A(C2,C1)∧IS-A(C3,C1)。

例如,“〈?C1>,多见于〈?C2>,以〈?CS3>最多,也有〈?CS4>”,提取的知识为:IS-A(C2,C1)∧IS-A(C3,C1)∧IS-A(C4,C1)。

例如,从句子“一号坑共出土各类器物567件,其中青铜制品178件,黄金制品4件,玉器129件,石器70件,象牙13根,海贝124件,骨器10件(雕云雷纹),完整陶器39件以及约3立方米左右的烧骨碎渣。”,抽取上下位关系“IS-A(青铜制品,器物),IS-A(黄金制品,器物),IS-A(玉器,器物),IS-A(石器,器物),IS-A(象牙,器物),IS-A(海贝,器物),IS-A(骨器,器物)”。

(c)复合式语境。复合式语境提取两层以上的上下位关系的概念对。提取的知识类型为:IS-A(C2,C1)∧IS-A(C3,C2)。例如,“〈?C1>类型以〈?C2>居多,其中〈!部分修饰词>〈是|为>〈?C3>”,提取的知识为:IS-A(C2,C1)∧IS-A(C3,C2)。

按照上述方法,构建了近一百个上下位关系语境,测试的语料为《中国大百科全书考古卷》。通过算法提取到46 095组上下位关系概念对。对语料按照大小平均分为十组,从每组中随机抽取了一百个句子进行评估,平均准确率为68.82%,召回率为65.64%。另外,中文上下位关系语境比英文复杂,同时也需要处理语境匹配冲突问题。

本节语境驱动的上下位关系学习方法的主要特点是:第一,针对上下位关系抽取的句型类型,建立了跨小句的概念上下位关系提取的方法。第二,针对空候选概念问题,建立了面向句子上下文的空候选概念的处理方法。也就是,如果句子匹配上下位语境,其候选概念可能为空,本节介绍通过句子的其他部分来填充相关候选概念。第三,针对候选概念的不同获取方法,建立了对概念进行分类的验证方法。根据候选概念在上下位语境中的不同位置采用不同的概念验证方法。第四,有效地解决了上下位关系语境匹配冲突的问题,建立了单个上下位关系语境匹配歧义和多个上下位关系语境匹配冲突的解决方法。

产生上下位关系提取错误的原因主要有两点:第一,语境表达的歧义性或多义性。对于同一上下位关系抽取语境c,可能表示多种概念之间的关系,比如,上下位关系、部分-整体关系以及存在关系等。因此,可能将表示非上下位关系的概念对错误识别为具有上下位关系的概念对。

上下位关系提取错误的第二个原因是存在句子充当候选概念的情形,造成短语提取错误。一般情形下,表示候选概念的是名词短语。但是,某些情况下,句子充当候选概念。因此,可能错误地将句子提取为短语。例如,对于句子“历史唯物主义认为,历史现象之所以不同于自然现象,是由于有‘社会的人’这一因素的存在。”,匹配语境“〈?C1>是〈?C2>”,应提取的概念为:“历史现象之所以不同于自然现象”和“由于有‘社会的人’这一因素的存在”。这种情况下,可能错误地提取了名词短语,而不是整个句子。

(3)领域概念构词法驱动的上下位关系提取方法的实验结果分析

以考古学词典作为领域概念提取领域概念的候选前缀和后缀。考古学词典共含9 953条词条。测试的语料为《中国大百科全书考古卷》。实验中一共提取了60 891个概念。对提取的概念按照前缀进行了排序,并将概念集合平均分为十组,从每组中随机抽取了一百组上下位关系概念对进行评测,平均准确率为96.17%,召回率为86.1%。

对于领域概念构词法驱动的上下位关系提取方法,其优势是正确率高。主要有两个原因。其一是从概念的内部词法特征来提取概念;其二是基于边界特征的概念验证方法将候选概念的冗余成分或多余成分均被过滤掉了。

提取上下位关系错误的原因主要有:边界信息辨别错误。将概念中的词汇错误地识别为边界信息。例如,由前缀“磨光”和后缀“石锛”提取了混合缀概念“磨光,出现了扁平长条石锛”,然后经过验证得到“磨光”和“条石锛”。而应该是“扁平长条石锛”。这是由于将“长”错误地识别为边界信息。

前面分析了三种上下位关系学习方法:种子上下位关系概念对驱动的学习、语境驱动的学习和领域概念构词法驱动的学习的实验结果。下面将综合比较分析这三种上下位关系学习方法的实验结果。

设HCSi为上下位关系语境,PCj为并列关系语境,HCSi包含PCj。对于句子s,若S匹配HCSi,则S也匹配PCj。设S由PCj提取到概念:C1,C2,…,Cn,则S可由语境驱动的上下位关系学习方法提取到知识:IS-A(C1,C)∧ISA(C2,C)∧…∧IS-A(Cn,C),C为从S中提取的概念。若在种子上下位关系概念对集合中,Ci(i=1,2,…,n)存在im个上位概念Ci1,Ci2,…,Cim,那么通过种子上下位关系概念对驱动的学习方法,可以学习到知识:

对于IS-A(Cj,C)(j=1,2,…,n),若该式子作为上述式子中的一个合取项,则IS-A(Cj,C)是由这两种方法均可以学习到的上下位关系。

本节以《中国大百科全书考古卷》为语料,共34 684个句子。匹配并列关系语境的句子有1 158个,匹配上下位关系语境的句子有10 221个,同时匹配这两种语境的句子有461个句子。对于同时匹配这两种语境的句子逐一分析,分别计算前两种方法中学习到的相同知识占各自学习的知识的比例。设K和K′分别为前两种方法从这461个句子中学习的上下位关系概念对集合,|K∩K′|/|K′|=17/274=6.204%。对于由前两种方法学习到的上下位关系概念对,可以根据第三种方法来进一步验证它们的正确性。设K1,K2,K3分别为三种方法从《中国大百科全书考古卷》学习到的上下位关系概念对集合,K=K1∪K2∪K3

由三种方法均学习到的概念比例为:|K1∩K2∩K3|/|K|=0.33%;

由两种方法均学习到的概念比例为:|(K1∩K2)∪(K1∩K3)∪(K2∩K3)|/|K|=3.14%;

只由第一种方法学习到的概念比例为:|(K1-(K1∩K2))∪(K1-(K1∩K3))|/|K|=10.44%;

只由第二种方法学习到的概念比例为:|(K2-(K1∩K2))∪(K2-(K2∩K3))|/|K|=52.55%;

只由第三种方法学习到的概念比例为:|(K3-(K3∩K2))∪(K3-(K1∩K3))|/|K|=33.71%。