6.1.3 实验结果与分析

6.1.3 实验结果与分析

以《中国大百科全书考古卷》中的古文化类文本和遗址类文本为例,给定48个属性,进行知识获取。古文化类文本共183篇,遗址类文本共212篇,提取3250条知识。对从遗址类文本中提取的1702条知识进行了评估,平均准确率为97.18%,错误率为2.82%。获得这样准确率的原因是,领域文本具有三个特点:使用的句式比较单一、句式往往严整而少变化和多用主谓句。

本节所阐述的领域实体属性知识获取方法的特点在于:

(1)采用了槽驱动的多层语境的知识获取方法。

其一,基于不同槽类型的知识在文本中的表达特点,明确地将槽分为显式槽、隐式槽和混合槽三类。由于自然语言表达的复杂性和灵活性,以一种方法提取不同类型的知识是很困难的。

其二,构建了本体层骨架语境、本体层扩展语境和本体层缺省语境。本体层扩展语境是对骨架语境的扩展。为此,本节引入了修饰成分。而本体层缺省语境是本体层骨架语境个体缺省的情形。这是因为,即使槽值表示方式是多样的,仍可通过构建本体层语境去寻找其中的规律。

(2)语境的构成从语言层语境抽象到本体层语境。

目前,知识获取的语境主要是基于语言层次的。例如,图6.1给出语言语境示例[77]。该语言层语境包括词类变量、语法成分变量和关键字变量。每个语境仅能提取一个槽或几个的槽值。语言层语境的构成元素,如词类变量和关键词常量等,均是构建在语言层次上的。但是,本体层语境除包括语言层语境的元素外,还引入了槽变量,从而能够抽象和概括语言层语境。因此,一个语言层语境只能提取一个或多槽的槽值,而一个本体层语境可以提取一类槽的槽值。

图6.1 语言语境示例

例如,对于显式槽“面积”存在语言层语境(Lingusitic Context,LC)和本体层语境(Ontological Context,OC),如下:

“LC=〈个体变量>〈面积>〈状语变量>〈是>〈面积槽值变量>”,

“OC=〈个体变量>〈槽变量>〈状语变量>〈关系动词变量>〈槽值变量>”。

从中可以看出,基于语言层语境LC只能提取槽“面积”的槽值,而基于本体层语境OC则能提取所有显式槽的槽值,如“年代”“面积”“地质时代”等。

(3)基于语境的分类体系所构建的语境有效地解决了语境爆炸和人工构建费时费力等问题。

根据不同分类依据,对语境作了三种分类,如图6.2所示。复合语境可由原子语境构成。类属语境、领域公共语境、公共语境具有重用和继承关系。由于庞杂繁多的语境被有机地组织和分类,大大减少了构建语境的数量,从而有助于解决语境爆炸和人工构建费时费力问题。

图6.2 语境分类体系

实验结果表明,下列槽的槽值提取正确率高:汉语拼音、英文名称、作者、发现时间、发掘时间、参考书目、主持发掘者、公布时间、公布者、公布对象、调查者、研究对象、年代、是否校正、面积、揭露面积、名称由来、主要分布区域、命名名称、命名原因、考古学专刊、调查对象、发现者。槽分布区域、地理位置、发掘次数、地质时代、研究依据、研究意义的正确率较高。但是,对于槽编写者和发掘者的正确率较低。其中的一个主要原因是,描述流识别错误和槽值验证错误。