标题语料的预处理

(二)标题语料的预处理

本文采用哈尔滨工业大学“语言技术平台(LTP)”(简称“LTP”)的分词系统为语料进行分词,并进行人工校对,用自编软件对结果进行统计。该分词系统一共能标注包括名词、动词、形容词、代词、区别词、副词、数词、介词、连词等在内的13种词类,其中名词还分别标注为普通名词、方位词、人名、地名、时间名词等7个小类。把所有语料均进行分词整理,并统计相关数据。将731条标题随机分为600条的训练集和131条的测试集。用训练集的数据归纳方法和计算,用测试集的数据加以比对和验证。