6.4.2 基于TF-IDF的特征提取
对文本进行分词后可以发现,某些词语出现的频次较高,对词频进行统计往往能够反映该词语的重要程度,因此,词频(Term Frequency,TF)统计的分析方法具有重要意义。但是在实际应用中可以发现,有些词语虽然常用但并不包含有价值的信息,如中文文本中的“的”“了”等,因此,为了降低这类词语的重要程度,便提出了逆文档频率(Inverse Document Frequency,IDF)的概念,当某个词语在语料库的多个文档中都出现时,这个词语的IDF就会相应降低。
TF-IDF(Term Frequency-Inverse Document Frequency)就是TF与IDF的乘积,其基本思想是:词语的重要性与它在文本中出现的次数成正比,与它在语料库中出现的频率成反比。TF-IDF可以有效过滤出高频但对分析内容贡献不高的词语。