文本特征提取属于特征工程的范畴,一般在文本预处理之后进行。特征工程指的是利用领域内的专业知识从原始的数据资料中提取有价值的信息的过程。文本数据作为一种典型的非结构化数据,难以直接使用计算机进行处理,因此,通常需要将其转换成计算机可以处理的数字信息。文本特征既包括词语、标点数量,也包括对特定词语的词频统计或TF-IDF统计结果,还可以包括更深层次的词语共现关系向量。