4.4.2 术语构成要素学习

4.4.2 术语构成要素学习

本节介绍如何从种子术语中学习术语构成要素。领域术语构成要素学习的基本思想是,根据种子领域术语来学习术语构成成分。给定种子领域术语集合St中的术语term,即term∈St以及术语构成要素集合Tc,首先利用集合Tc中的术语构成要素来切分术语term。设术语term的切分结果为R1,R2,…,Rm,则Ri表示为公式(4.2)所示:

其中,tij∈Tc-{term},rij∉Tc-{term},Length(rij)≥0,

其中,m′=|{rij|Length(rij)>0}|,

这里,tij是集合Tc中的领域术语构成要素,rij是不属于集合Tc的字符串,α和β是参数。函数Length(r)表示字符串r的长度。进一步,根据公式(4.3)计算每个切分结果的权重。如果Ri具有最大权重,则将ri1,...,rik,rik+1添加到术语构成要素集合Tc中。