8.3 主题模型分析
主题模型是对文本中隐含语义结构进行聚类的统计模型,是语义分析和文本挖掘的一种重要方法。潜在狄利克雷分配(Latent Dirichlet Allocation,LDA)是最常见的主题模型,是一个基于文档-主题-词语的三层贝叶斯概率模型,它能够输出文档主题的概率分布情况以及每个主题下词语的分布情况。LDA主题模型是一种生成概率模型,其生成思想可以描述为:首先以一定概率选择某一个主题,其次在这个主题下以一定概率选择某个词,重复这个过程,最后生成整篇文章。R语言中有很多包能够实现LDA分析,包括topicmodels包、LDA包等。
本节将介绍如何使用topicmodels包来进行主题模型分析,同时也会介绍一个能够帮助我们解读主题模型输出结果的包——LDAvis包。