7.4 实验结果与分析
2025年09月26日
7.4 实验结果与分析
选用准确率、召回率和漏识率作为实验结果的评价方法。首先定义如下参数:
Nks:由描述流识别系统和知识工程师均识别的描述子个数;
Nk:由知识工程师识别的描述子个数;
Ns:由描述流识别系统识别的描述子个数;
Nl:由知识工程师识别而描述流识别系统没有识别的描述子个数;
准确率、召回率和漏识率分别定义如下:
以《中国大百科全书考古卷》中的遗址类文本为例,进行描述流识别。将语料按照篇数平均分为十组,从每组中随机抽取了十篇进行评估,平均准确率为85.71%,召回率为67.11%,漏识率为32.24%。
本节阐述的本体驱动的描述流识别的优势在于:首先,构建了贡献度驱动的描述子关联词汇场。基于训练文本,构建了描述子关键词汇场及其贡献度,从而可以从定量分析和定性分析两方面提取特征项映射的候选描述子。
其次,引入了多策略的特征项的描述子识别方法。本节采用三种不同的方法来提取特征项映射的描述子。第一是根据知识获取本体识别结果;第二是基于描述子的关联词汇场识别结果;第三是通过计算互信息来学习特征项的描述子。
最后,基于动态规划的篇章层语段描述流的识别方法。基于动态规划的方法,构建与训练描述流相似度最大的候选描述流,仍可保持描述流的结构。