4.3.1 术语定义抽取模型

4.3.1 术语定义抽取模型

领域术语或领域概念包含内涵和外延两方面的含义。概念内涵是指反映隶属与概念的事物或实体的本质属性或性质,概念外延是指反映隶属于概念的事物或实体的集合。在非结构化文本中,领域术语通常具有两种定义方法,即内涵定义和外延定义。例如,下面句子“所谓计算机的可编程性,是指对CPU的编程(The so-called programmability of computers refers to programming CPU)”给出了领域术语“计算机的可编程性(Programmability of computer)”的内涵定义。再如,领域术语“太阳系行星(Planets in the solar system)”的外延定义为:“太阳系行星有水星、金星、地球、火星、木星、土星、天王星、海王星和冥王星(The planets in the solar system include Mercury,Venus,Earth,Mars,Jupiter,Saturn,Uranus,Neptune,and Pluto)”。

领域术语定义抽取是知识抽取的重要研究内容。本节采用自举方法来自动抽取词汇语法模式、句子中领域术语定义的上下文特征、内部特征。其中,词汇语法模式用于提取领域术语的候选定义,上下文特征和内部特征用于计算抽取的候选定义的置信度。

在本节中,领域术语定义抽取的基本思想是,以自举方法,根据种子领域术语定义或概念上下位定义中学习词汇语法模式,通过词汇语法模式抽取术语定义。词汇语法模式和领域术语定义采用相互迭代学习机制。

下面给出领域术语定义抽取的流程。首先,从若干种子领域术语定义或概念上下位定义中构建词汇语法模式。例如,领域术语C语言(C language)和编程语言(Programming language)之间存在上下位关系。在第一次迭代中,根据学习的词汇语法模式,从中文文本句子中抽取新的领域术语定义。然后,从这些新学习到的领域术语定义中进一步学习新的词汇语法模式,并将这些新模式不断地添加到术语定义模式集合中。在下一次迭代中,更新后的词汇语法模式将用于抽取候选中文文本句子的领域术语定义。整个迭代过程直到所有非结构化文本处理完毕。图4.9给出了利用自举方法来抽取领域术语定义的流程图。

算法:面向非结构化文本的基于自举的领域术语定义抽取方法

输入:领域非结构化文本语料Cr;

输出:领域术语及其定义;

(1)构建领域术语种子定义集合Ssd、种子上下位关系集合Ssh、学习到的种子模式集合Slp(=∅);

(2)根据种子领域术语定义或种子上下位关系,通过语料或搜索引擎,学习词汇语法模式,然后将这些模式添加到词汇语法模式集合Slp之中;

(3)选择上下文特征和内部特征来判别候选领域术语定义,计算每种特征的权重;

(4)从语料Cr中读取中文文本句子,根据模式集合Slp提取候选领域术语定义;

图4.9 基于自举方法的领域术语定义抽取流程图

(5)进入候选领域术语定义评估模块,将新抽取的领域术语定义添加到集合Ssd之中,将新抽取的上下位关系添加到集合Ssh之中;

(6)根据集合Ssd中的领域术语定义或集合Ssh中的上下位关系,通过语料或搜索引擎,学习词汇语法模式,然后将这些模式添加到模式集合Slp之中;

(7)如果语料Cr中存在中文句子,则转入步骤(4);否则算法结束。