8.3.2　基于LDAvis包的主题模型可视化

2025年09月26日

版权

虽然LDA主题模型能够通过很多工具实现,但是如何解释模型输出的结果依然是一个难点。下面介绍一个可视化工具——LDAvis包来解释LDA主题模型的输出结果。

读者可参考网址https://mirrors.tuna.tsinghua.edu.cn/CRAN/web/packages/LDAvis/README.html来学习如何使用LDAvis包。R中执行LDA算法的第三方包有很多个,其输出的主题模型结果的形式不同,因此,在使用LDAvis包时应该注意参数是否正确。

通过“A topic model for movie reviews”这个示例可以看到(示例网址:http://ldavis.Cpsievert.me/reviews/reviews.html),LDAvis包主要使用两个函数:createJSON()函数和ser Vis()函数。

createJSON()函数能够返回一个JSON对象,它可作为生成交互式网页的数据。createJSON()函数有以下几个重要参数:

pagenumber_ebook=145,pagenumber_book=130

其中,phi为文档-主题分布矩阵;theta为主题-词语分布矩阵;doc.length为每篇文章的长度,也就是词项的个数;vocab为词项列表;term.frequency为词项对应的词频。

ser Vis()函数有以下几个重要参数:

其中,json为createJSON()函数输出的json数据。out.dir为存储html、js、json文件的路径。open.browser是能否打开交互式浏览器的参数,若参数值为TRUE,这个函数将尝试通过server包创建一个本地文件服务器,用于结果预览;若参数值为FALSE,则不能直接预览,这种情况下可以将输出的html、js、json文件放到服务器上进行查看。

下面以第8.3.1节中得到的主题模型结果为例,对主题模型可视化进行分析。

首先加载需要的包,并准备函数需要的几个重要参数,代码如下:

pagenumber_ebook=146,pagenumber_book=131