4.3.2 定义抽取和评估
本节介绍词汇语法模式构建、候选定义抽取、特征选择、特征权重计算以及候选定义评估即计算其置信度。
给定领域术语t及其定义d,首先搜索包含t和d的自由文本句子集合。这些句子来源于给定的语料集,或通过提交查询术语t和定义d到搜索引擎获得的搜索结果。例如,对于领域术语“口令入侵”及其定义“破解口令或屏蔽口令保护”,通过调用Google Search API在搜索结果中搜索到句子“所谓口令入侵,是指破解口令或屏蔽口令保护”。因此,构建如下模式
其中,〈所谓>,〈,>,和〈是指>是常量词项,〈?T>和〈?D>是变量词项,“?”用于变量词项的标识符.
例如,对于测试语料中句子“所谓计算机的可编程性,是指对CPU的编程”,该句子匹配模式“〈所谓>〈?T>〈,>〈是指>〈?D>”。由此,提取术语的候选定义:该谓词公式是指领域术语“计算机的可编程性”的定义是“对CPU的编程”。再如,从句子“所谓监督学习是指从标记的训练数据来完成机器学习任务”,抽取术语的候选定义,即“DefPre(监督学习,从标记的训练数据来完成机器学习任务)”。
下面讨论如何基于上下位关系构建词语语法模式。首先,搜索包含具有上下位关系的两个术语的句子;然后,采用聚类方法构建模式。例如,搜索到句子“驱动程序是指一种管理实际数据传输和控制特定物理设备的计算机程序”包含两个术语:“驱动程序”和“计算机程序”,还有句子“计算机病毒是指一种能够通过自身复制传染,起破坏作用的计算机程序”包含两个术语“计算机病毒”和“计算机程序”。基于句子相似度,这两个句子被聚类到同一个类簇。进一步,从这两个句子中提取最长公共子序列,构建词汇语法模式:“〈?T>〈是指>〈一种>〈?D>”,其中,〈是指>和〈一种>是常量词项。
句子相似度的计算方法的基本思想是:根据两个句子的最长公共子序列的长度计算句子相似度。下面介绍句子相似度的计算方法。对于汉语句子S1和S2,S1=s11t11s12t12s13,S2=s21 t21 s22 t22 s23,其中t11和t1 2具有上下位关系,t21和t22具有上下位关系,sij是空字符串或非空字符串(i=1,2,j=1,2,3),cs1,cs2,…,csm是句子S1和句子S2的一个最长公共子序列,m是整数。句子S1和S2的相似度SimDeg(S1,S2)的计算方法如下所示,其中,函数Length(S1)表示句子S1的长度,α和β是参数。
获得候选术语定义后,通过候选术语定义的内部特征和上下文特征来计算其置信度。对于候选术语定义,通过其内部特征和上下文特征来判别其正确性。候选术语定义cd的特征向量V定义为
其中,fp,fdw和fcw是内部特征,fwa和fnp是上下文特征,如表4.2所示。
表4.2 候选术语定义的内部特征和上下文特征
续表
第一个候选术语定义的内部特征fp的特征值是实数,其含义是候选术语定义成为正确定义的概率,如表4.2所示。假设通过匹配模式p从句子中抽取候选术语定义cd,fp的计算方法如下所示。其中,NumMatSen(p)是测试语料中匹配模式p的句子数量,NumCorDef(p)是测试语料中匹配模式p并且抽取出正确领域术语定义的句子数量。
第二个候选术语定义的内部特征fdw是在候选术语定义中领域词汇出现的比例,如表4.2所示。
第三个候选术语定义的内部特征fcw是候选术语定义中常用词语出现的比例,计算公式如下所示,如表4.2所示。其中,D1是领域术语词典,D2是汉语词典,ContainPre(cd,w)表示领域术语定义cd包含词语w。
第四个候选术语定义的上下文特征fwa是布尔值,其含义是句子中模式常量词项的字符和其相邻的字符是否构成D1∪D2的词语,如表4.2所示。引入该特征旨在解决由于模式常量词项产生的歧义问题。例如,句子“指挥跨度是指挥员及指挥机关直接指挥的单位的数量”匹配模式“〈?T>〈是指>〈?D>”。然而,在模式常量项〈是指>中的字符“指”与相邻的字符“挥员”构成词语“指挥员”。因此,领域术语“指挥跨度”的定义不是“挥员及指挥机关直接指挥的单位的数量”,应该是“指挥员及指挥机关直接指挥的单位的数量”。
第五个候选术语定义的上下文特征fnp是关于上下文词语和词性的模式特征,其含义是指领域术语定义cd是否满足负模式,如表4.2所示。其中,负模式是指若句子匹配该模式,则从该句子中抽取的候选领域术语定义不能构成正确候选术语定义。
设cd1,cd2,…,cdk是从训练语料Ct中抽取的候选术语定义,vi=(f1,f2,…,fn)是cdi的特征向量,pij是当cdj被识别为正确定义时,特征fi出现的概率,qij是当cdj被识别为正确定义时,特征fi不出现的概率。特征fp,fdw,fcw的权重设置为1。其他特征的权重值计算如下所示:
对于候选术语定义cd,其置信度CreDeg(cd)计算方法如下。当置信度CreDeg(cd)大于阈值,则候选术语定义cd被识别为正确定义。
测试语料库来自计算机、军事和考古学三个领域的网页和文本。语料库约26万句。训练语料库由4个语料库中随机抽取的5 000个句子组成,用于评估特征的权重。使用如下4个模式,提取约4 200个术语定义,达到了82.2%的准确率。利用所有模式从语料库中共提取约15万个定义,准确率为75.3%,查全率为88.7%。
〈?T>〈是|就是|即|指|指的是>〈?D>
〈?T>〈是>〈?D>〈一>〈!是一量词>〈?D>
〈?T>〈叫|称>〈?D>
〈?C>〈叫|称>〈?D>〈为|是>〈?T>