6.5.1 词频分析

6.5.1 词频分析

词频分析是对文本中重要词汇出现的次数进行统计分析的方法,侧重于文本显性特征的提取,常用于基本的文本数据分析。在词频分析中,词语的频次反映词语的重要程度,从而可以通过对词频的分析把握文本的基本特征。

虽然词频被广泛应用于基本的文本数据分析,但是在实际使用中,通常存在一些常用但没有实际意义的词语,这样的词语出现的频次很高,往往会影响结果的分析。为了降低这些词语的权重,目前常采用的方法是TF-IDF。逆文档频率就是指当某一个词语在多个文档中出现时,这个词语的重要性会降低。

在R中,可以使用quanteda、tidytext等程序包进行词频分析,具体可以参考第7.3节和7.5节。