4.4.3 术语抽取和评估

4.4.3 术语抽取和评估

领域术语提取和评估的基本思想是,基于最大向前匹配和领域频率,计算候选领域术语的频率。给定测试语料集中句子s和领域术语构成要素集合Tc,根据领域术语构成要素集合Tc,首先利用最大向前匹配方法来切分句子s。切分结果如公式(4.4)所示:

这里,tij∈Tc,xij是不属于集合Tc的字符串。进一步,将xk和xk+1之间的字符串tk1tk2...tkik(1≤k≤n)识别为候选术语。换句话说,连续匹配集合Tc中术语构成成分的最长字符串被识别为候选术语。最后,计算tk1tk2...tkik的领域频率,也就是,计算其在从领域语料中获取的候选领域术语集中出现的频率。若候选领域术语的频率大于给定阈值,则将该候选领域术语识别为领域术语。

领域术语提取实验数据包括计算机、军事和考古领域语料库。使用C1、C2、C3、C4和C5来表示这五个语料库。语料库集大约有2 100万个字符。表4.3分别给出了计算机、军事和考古领域中每次迭代种子术语和学习术语要素的数量。在第五次迭代中,没有新的术语要素可以从计算机中的种子术语中学习,而在第六次迭代中没有新的学习要素可以从军事和考古学中的种子词汇中学习。最后,本节方法分别学习了计算机、军事和考古领域的11 019、26 156和14 441个术语要素。

表4.3 三个数据集上迭代提取的领域术语数量

通过使用种子术语的构成要素和学习的术语构成要素来抽取术语,图4.11给出每次迭代中抽取术语的数量。例如,提取了计算机术语“安全远程监控网络硬件系统(安全远程监控网络硬件系统)”,包括六个术语构成要素“安全”“远程”“监控”“网络”“硬件”和“系统”。平均而言,本节领域术语抽取方法比仅使用五个语料库中种子词的术语构成要素的方法多提取大约15000个术语。图4.12给出长度为2~11个汉字的所提取术语的长度分布。大多数领域术语的长度为2、4、5、6或8个汉字。在计算机、军事和考古学领域所提取的领域术语集合中,长度为2~8个汉字的术语至少达到所有术语的95%。计算机、军事和考古学中最长的术语分别是24、20和25个汉字。

图4.11 每次迭代中提取的领域术语数量

图4.12 每次迭代中提取领域术语的长度分布

五个语料库的领域术语抽取的准确率分别为72%、67%、69%、66%和70%。五个语料库的平均句子召回率超过40%。本节领域术语抽取方法获得较高性能的主要原因是:第一,候选词由字符、简单词或复合词组成,这些词构成种子术语的构成要素;第二,在每次迭代中学习的术语构成要素受益于在先前迭代中学习到的术语构成要素。