4.4.1 术语抽取方法
领域术语抽取包括两个阶段。第一阶段采用自举迭代方法,从种子领域术语中学习术语构成要素。第二阶段根据学习的领域术语构成要素来提取领域术语。
中文领域术语抽取方法的动机是根据计算机、军事和考古学领域词典的字符分布特点。设Ch1,Ch2和Ch3分别是计算机词典、军事词典和考古学词典的字符集合。统计表明,①在三个字符集合Ch1,Ch2和Ch3中,平均大约77%的字符由平均大约16%的不同字符构成;②平均88%的字符由平均大约28%的不同字符构成。另外,在这三个领域词典中,频率不低于2的字符构成大约91%的术语,频率不低于3的字符构成大约87%的术语。由此,推断领域绝大部分术语由相对稳定的小规模字符集合构成。
领域术语提取的基本思想如下,如图4.10所示。设St是种子领域术语集合,Tc是术语构成要素集合。在迭代开始前,Tc初始化为St,即Tc=St。在第一阶段的第一次迭代过程中,根据术语构成要素集合Tc对集合St中的术语进行切分,从每个术语中学习新的术语构成要素。进一步,学习的新术语构成要素不断地添加到集合Tc中。在下一次迭代中,更新的集合Tc用于切分集合St中的术语,从每个术语中学习新的术语构成要素。最后,当集合Tc不再更新时,迭代结束。在第二阶段,基于集合Tc,采用最大向前匹配方法从自由文本中提取候选领域术语,并且通过领域频率进行术语验证或术语评估。领域术语提取的迭代自举算法如下:
算法:基于迭代自举的领域术语抽取
输入:种子领域术语集合St,领域语料Cd;
输出:术语构成成分和领域术语;
(1)构建领域术语构成成分集合Tc,设Tc=St;
(2)读入种子领域术语集合St中任一术语term,基于集合Tc对术语term进行切分,学习包含在术语term中的术语构成成分,将学习的新术语构成成分添加到集合Nc中。
(3)如果集合St中存在领域术语,则转入步骤(2);否则转入步骤(4);
(4)如果Nc-Tc≠∅,则设领域术语构成成分集合Tc=Tc∪Nc,并且转入步骤(2);否则转入步骤(5);
(5)读入中文语料Cd中句子,基于领域术语构成成分集合Tc提取候选领域术语,并且验证候选领域术语;
图4.10 基于自举迭代的领域术语抽取方法流程图
(6)如果语料Cd中存在句子,则转入步骤(5);否则结束算法。